k8s故障排查与自动治愈

DNS故障：6个DNS Pod中的2个出现无法解析外部DNS名称的情况。后果是大量线上业务因域名解析。

CNI故障：少数几个节点的容器网络和外部断开，节点访问自身的Pod IP没有问题，但是其它节点无法访问故障节点的Pod IP。这种情况下，Pod本机的健康检查无效，导致故障实例持续存在，一定比例的业务请求失败。

kubenurse会对ingress、dns、apiserver、kube-proxy进行网络探测。

使用KubeNurse进行集群网络监控

节点故障

硬件错误: CPU/Memory/磁盘故障

kernel问题: kernel deadlock/corrupted file systems

容器运行时错误: Docker假死

基础设施服务故障: NTP故障

node-problem-detector

根源: 在kubernetes集群上，通常我们只是管制集群本身以及容器的稳定运行。但是这些稳定性都是强依赖节点node的稳定的。可是node的管理，在kubernetes是比较弱的，因为可能对于kubernetes的初始设计来说，这些应该是IaaS的事。但是随着kubernetes的发展，它越来变成了一个操作系统，它管理的内容将越来越多，所以对于node的管理也将纳入kuberntes里管理。所以延伸出了node problem detector这个项目。

Kubernetes支持两种上报机制：

1、NodeCondition(节点状况): 这是指永久性的错误，它将造成pod无法在这个节点运行。这个节点状况只有在节点重启后才会被重置

2、Event(事件): 影响节点的临时性问题，但是它是对于系统诊断是有意义的。NPD就是利用kubernetes的上报机制，通过检测系统的日志(例如centos中journal)，把错误的信息上报到kuberntes的node上。

站长网

k8s故障排查与自动治愈

作者: dawei

联系我们

作者: dawei

相关文章

提升灾难恢复能力，爱数AnyBackup新品重磅上线

华云安#8226;概念篇 初探企业网络攻击面管控

保数据，防曝光，安全即时通讯 移动办公用信源豆豆

Check Point Software发现联发科芯片存在4个确点

网银互联LinkW#8203;AN，智慧无人工厂处理方案

为超高清时代而生，深信服EDS存储靠什么？

联系我们

华云安#8226;概念篇初探企业网络攻击面管控

保数据，防曝光，安全即时通讯移动办公用信源豆豆