浅谈监控,可观测性与数据存储
在实践中,所有这些概念/术语,目标都是增强工程师对于线上系统运行情况的了解。 对工程师而言,监控/可观测性工程存在的意义,是帮助工程师发现问题,定位问题,解决问题。 对系统自身而言,这些工作都是通过数据的采集/存储/分析,以及进一步迭代来完成
无数据,不上班!运维“数据思维”至关重要?
信通院的一些分析数据表明,企业IT的信息化历程逐渐完成,同时企业对IT的精益运行的需求越来越迫切,在这个场景下,数据的思维和使用能力成为制约提升IT生产效率的桎梏。 笔者以为,企业数字化的范畴放在运维领域,更多的场景还处在数据量化的扩展,因此除
如何更好地做好运维管理?
如果你已经在做运维管理工作或是正想往运维管理方向发展,那么请搬上板凳,带好瓜子听我娓娓道来。我能给出一些个人的建议,让你在运维管理的道路上少走弯路。如有问题也可以在留言区进行留言,大家一起讨论共同进步。 运维管理要做些什么 如果一名从基层
怎样在 CentOS/RHEL 系统中操作带 VLAN 标记的以太网卡
在某些场景中,我们希望在 Linux 服务器(CentOS/RHEL)的同一块以太网卡(NIC)上分配来自不同 VLAN 的多个 IP。这个可以通过使用 VLAN 标记接口来实现。但是要做到这一点,我们必须确保交换机的端口上连接了多个 VLAN,也就是说我们可以在交换机上添加多
Saltstack批量管理文件和实现
使用场景 在维护大量服务器的时候,系统一般初始化并上线以后,我们希望所有的服务器系统的某些配置文件一样,这时候我们需要一种工具来批量管理这些文件,保证配置文件的一致性,比如:/etc/resolv.conf这个文件。我们会希望这个文件不管在任何时候都是统
Kubernetes上对应用程序进行故障解决的方案
从 Docker 迁移到 Docker Swarm,再到 Kubernetes,然后处理了多年来的所有各种 API 更改之后,我非常乐意发现部署中出现的问题和把问题进行修复。我今天分享下我认为最有用的5条故障排除技巧,以及一些其他的使用技巧。 kubectl 瑞士军刀 kubectl 就是我
大数据理解:Docker虚拟化解析
一款产品从开发到上线,从操作系统,到运行环境,再到应用配置。作为开发+运维之间的协作我们需要关心很多东西,这也是很多互联网公司都不得不面对的问题,特别是各种版本的迭代之后,不同版本环境的兼容,对运维人员都是考验 .Docker之所以发展如此迅速,
你要偷偷学会排查线上CPU飙高的情况,然后吓坏所有人!
通过上面的堆栈信息,可以看出,占用CPU资源的线程主要是卡在JDBC底层的TCP套接字读取上。连续执行了很多次,发现很多线程都是卡在这个地方。 通过分析调用链,发现这个地方是我代码中有数据库的insert,并且使用TDDL(阿里内部的分布式数据库中间件)来创
关于故障复盘的一些经验
有句话说,常在河边走,哪有不湿鞋。我身边经常会看到不少数据故障。每每碰到这些问题,原因都是让人唏嘘不已。 而碰到故障的时候,除了通常都会说的后续改进,其实很多人对于问题的认识和理解还不够深入,这里主要包含几个方面: 1)害怕承担更多责任,会
怎样从基础思考设计你的 DevOps 运维服务体系?
原始阶段,运维工程师与各部门无数的磨合、探索下,慢慢形成了最初的体系,其无形的规范着运维的工作和注意事项,工程师通过这个纲领开展日常工作并保障业务的健康发展,这个阶段可以说是制度为王、制度规范,没有系统的运维平台,有的只是零散的一些大小