经验 – 第 122 页

浅谈监控，可观测性与数据存储

2021年5月25日

在实践中，所有这些概念/术语，目标都是增强工程师对于线上系统运行情况的了解。对工程师而言，监控/可观测性工程存在的意义，是帮助工程师发现问题，定位问题，解决问题。对系统自身而言，这些工作都是通过数据的采集/存储/分析，以及进一步迭代来完成

2021年5月25日

信通院的一些分析数据表明，企业IT的信息化历程逐渐完成，同时企业对IT的精益运行的需求越来越迫切，在这个场景下，数据的思维和使用能力成为制约提升IT生产效率的桎梏。笔者以为，企业数字化的范畴放在运维领域，更多的场景还处在数据量化的扩展，因此除

2021年5月25日

如果你已经在做运维管理工作或是正想往运维管理方向发展，那么请搬上板凳，带好瓜子听我娓娓道来。我能给出一些个人的建议，让你在运维管理的道路上少走弯路。如有问题也可以在留言区进行留言，大家一起讨论共同进步。运维管理要做些什么如果一名从基层

2021年5月25日

在某些场景中，我们希望在 Linux 服务器（CentOS/RHEL）的同一块以太网卡（NIC）上分配来自不同 VLAN 的多个 IP。这个可以通过使用 VLAN 标记接口来实现。但是要做到这一点，我们必须确保交换机的端口上连接了多个 VLAN，也就是说我们可以在交换机上添加多

2021年5月25日

使用场景在维护大量服务器的时候，系统一般初始化并上线以后，我们希望所有的服务器系统的某些配置文件一样，这时候我们需要一种工具来批量管理这些文件，保证配置文件的一致性，比如：/etc/resolv.conf这个文件。我们会希望这个文件不管在任何时候都是统

2021年5月25日

从 Docker 迁移到 Docker Swarm，再到 Kubernetes，然后处理了多年来的所有各种 API 更改之后，我非常乐意发现部署中出现的问题和把问题进行修复。我今天分享下我认为最有用的5条故障排除技巧，以及一些其他的使用技巧。 kubectl 瑞士军刀 kubectl 就是我

2021年5月25日

一款产品从开发到上线，从操作系统，到运行环境，再到应用配置。作为开发+运维之间的协作我们需要关心很多东西，这也是很多互联网公司都不得不面对的问题，特别是各种版本的迭代之后，不同版本环境的兼容，对运维人员都是考验 .Docker之所以发展如此迅速，

2021年5月25日

通过上面的堆栈信息，可以看出，占用CPU资源的线程主要是卡在JDBC底层的TCP套接字读取上。连续执行了很多次，发现很多线程都是卡在这个地方。通过分析调用链，发现这个地方是我代码中有数据库的insert，并且使用TDDL（阿里内部的分布式数据库中间件）来创

2021年5月25日

有句话说，常在河边走，哪有不湿鞋。我身边经常会看到不少数据故障。每每碰到这些问题，原因都是让人唏嘘不已。而碰到故障的时候，除了通常都会说的后续改进，其实很多人对于问题的认识和理解还不够深入，这里主要包含几个方面： 1)害怕承担更多责任，会

2021年5月25日

原始阶段，运维工程师与各部门无数的磨合、探索下，慢慢形成了最初的体系，其无形的规范着运维的工作和注意事项，工程师通过这个纲领开展日常工作并保障业务的健康发展，这个阶段可以说是制度为王、制度规范，没有系统的运维平台，有的只是零散的一些大小