Kubernetes(k8s)集群健康检查常用的五种指标

news/2024/6/3 17:28:27 标签: kubernetes, 容器, 云原生

文章目录

    • 1、节点健康指标
    • 2、Pod健康指标
    • 3、服务健康指标
    • 4、网络健康指标
    • 5、存储健康指标

1、节点健康指标

  • 节点状态:检查节点是否处于Ready状态,以及是否存在任何异常状态。

  • 资源利用率:监控节点的CPU、内存、磁盘等资源的使用情况,确保没有资源瓶颈。

  • 网络连通性:检查节点之间的网络连通性,Pod调度状态,确保Pod之间的通信正常等。

使用 kubectl get nodes -o wide 命令获取所有节点的状态信息,包括节点名称、IP地址、角色等。

kubectl get nodes -o wide

在这里插入图片描述
使用 kubectl cluster-info 命令显示当前连接到的集群的相关信息,如API服务器地址、版本号等。

kubectl cluster-info

在这里插入图片描述
使用 kubectl get nodes 命令可以获取所有节点的健康状态

kubectl get nodes

在这里插入图片描述
使用 kubectl get pods --all-namespaces 命令查看集群中所有命名空间中Pod的状态

kubectl get pods --all-namespaces
#雷同
kubectl get pod -A

在这里插入图片描述
用于获取Kubernetes集群中各个组件的健康状态,如API服务器、控制器管理器、调度器等。

kubectl get componetstatuses

在这里插入图片描述
使用 kubectl top 命令来查看节点和Pod的资源使用情况。(需要安装集群指标监控组件metrics)

kubectl top node

在这里插入图片描述
使用 kubectl top pod --all-namespaces或者 kubectl top pod -A命令查看Pod详细资源使用情况。

kubectl top pod  -A

在这里插入图片描述
使用 kubectl describe node vts-b 命令可以获取特定节点的详细信息,包括资源使用情况、事件记录等。

kubectl describe node vts-b

在这里插入图片描述
在这里插入图片描述

2、Pod健康指标

  • Pod状态:检查Pod是否正常运行,是否出现CrashLoopBackOff、Pending等异常状态。

  • 容器状态:检查Pod内各个容器的运行状态,确保容器没有崩溃或异常退出。

  • 资源使用情况:监控Pod的CPU、内存等资源的使用情况,确保Pod没有资源不足的问题。

使用 kubectl describe pod calico-node-tw42m -n kube-system命令查看Pod的详细信息,包括其事件历史、容器状态、资源使用情况等。

kubectl describe pod calico-node-tw42m -n kube-system

在这里插入图片描述
使用 kubectl get events --sort-by=‘.metadata.creationTimestamp’ -n kube-system命令可以查看指定命名空间中的事件,按时间顺序排列。

kubectl get events --sort-by='.metadata.creationTimestamp' -n kube-system

在这里插入图片描述

3、服务健康指标

  • 服务可用性:检查服务是否能够正常访问,包括服务的可用性、响应时间、错误率等,是否存在任何故障或延迟。

  • 负载均衡:检查服务的负载均衡配置是否正确,确保请求能够均匀分发到各个Pod。

kubectl get services

kubectl describe service kubernetes

使用上面两条命令来获取服务的详细信息,包括其类型(如ClusterIP、NodePort、LoadBalancer等)、IP地址、端口号以及与之关联的Pod信息。

kubectl get services

kubectl describe service kubernetes

在这里插入图片描述

使用 kubectl logs -f polardbx-hpfs-9scjk -n polardbx-operator-system命令可以查看Pod中容器的日志,这对于诊断Pod为什么崩溃非常有用。

kubectl logs -f polardbx-hpfs-9scjk -n polardbx-operator-system

在这里插入图片描述

4、网络健康指标

  • 网络延迟:检查集群的网络连通性、检查集群内的网络延迟情况,确保网络通信顺畅。

  • 丢包率:监控网络传输过程中的丢包情况,避免数据传输问题。

5、存储健康指标

  • 持久卷状态:检查集群的存储状态,检查持久卷(Persistent Volume)的状态,确保存储资源可用。

  • 持久卷声明状态:检查持久卷(Persistent Volume Claim)的状态,确保Pod能够正常挂载存储,容量使用情况等。

kubectl get sc

kubectl get pv,pvc -A

使用上面两条命令来查看集群中所有的持久卷和持久卷声明。确保它们的状态是Bound,表示它们已经被正确地绑定到了Pod上。

在这里插入图片描述

在这里插入图片描述

这些健康检查指标可以通过Kubernetes提供的API、命令行工具(如kubectl)、监控系统(如Prometheus)等来获取和监控。通过对这些指标的持续监控和分析,可以及时发现和解决集群中的问题,确保集群的稳定性和高可用性。

在这里插入图片描述


当你觉得自己很难的时候,说明你在走上坡路,别急,美好正在马不停蹄地赶来的路上。



http://www.niftyadmin.cn/n/5439004.html

相关文章

设计模式(结构型设计模式——外观模式)

设计模式(结构型设计模式——外观模式) 外观模式 基本定义 外观模式是为多个复杂的子系统提供一个一致的接口,而使这些子系统更加容易被访问的模式。 外部应用程序不用关心内部子系统的具体的细节,这样会大大降低应用程序的复杂…

【计算机视觉】Gaussian Splatting源码解读补充

本文旨在补充gwpscut创作的博文学习笔记之——3D Gaussian Splatting源码解读。 Gaussian Splatting Github地址:https://github.com/graphdeco-inria/gaussian-splatting 论文地址:https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/3d_gauss…

机器学习 - 训练模型

接着这一篇博客做进一步说明: 机器学习 - 选择模型 为了解决测试和预测之间的差距,可以通过更新 internal parameters, the weights set randomly use nn.Parameter() and bias set randomly use torch.randn(). Much of the time you won’t know what…

单例模式的两种方法:饥汉模式和懒汉模式

签名:但行好事,莫问前程。 文章目录 前言一、单例模式二、饥汉模式实现单例三、懒汉模式实现单例总结 前言 记录一下单例模式的两种方法:饥汉模式和懒汉模式。 一、单例模式 单例模式:单例模式是一种常用的软件设计模式&#xff…

[OpenCV学习笔记]获取鼠标处图像的坐标和像素值

目录 1、介绍2、效果展示3、代码实现4、源码展示 1、介绍 实现获取鼠标点击处的图像的坐标和像素值&#xff0c;灰度图显示其灰度值&#xff0c;RGB图显示rgb的值。 OpenCV获取灰度值及彩色像素值的方法&#xff1a; //灰度图像&#xff1a; image.at<uchar>(j, i) //j…

Go程序设计语言 学习笔记 第三章 基本数据

Go的数据类型分四大类&#xff1a;基础类型&#xff08;basic type&#xff09;、聚合类型&#xff08;aggregate type&#xff09;、引用类型&#xff08;reference type&#xff09;、接口类型&#xff08;interface type&#xff09;。本章的主题是基础类型&#xff0c;包括…

NCV4264-2ST50T3G芯片中文资料PDF数据手册引脚图规格书参数产品手册价格图片

产品概述&#xff1a; NCV4264-2 在功能和引脚上都与 NCV4264 兼容&#xff0c;具有较低的静态电流消耗。 其输出级提供 100 mA&#xff0c;输出电压精度为 /-2.0%。 100 mA 负载电流下的最大漏电压为 500 mV。它具有针对 45 V 输入瞬变、输入电源逆向、输出过电流故障和超高裸…

每天学习几道面试题|Kafka(四)内部原理、高级特性以及与其他分布式系统的集成等方面

文章目录 1. Kafka 内部原理1.1 Kafka 是如何实现持久化消息存储的&#xff1f;1.2 Kafka 的消息传递模型是怎样的&#xff1f; 2. Kafka 高级特性2.1 什么是 Kafka 事务&#xff1f;2.2 Kafka 是如何保证消息的 Exactly-Once 语义的&#xff1f; 3. Kafka 与其他分布式系统的集…