K8S deployment故障可视化排查指南

2019-12-23 19:03:31 有點技術

这是一个示意图，可帮助您调试Kubernetes中的deployemnt,

当您希望在Kubernetes中部署应用程序时，通常定义三个组件：

一个deployment - 这是创建名为Pods的应用程序副本的秘诀
一个service - 内部负载平衡器路由流量到pod
一个ingress - 从外部访问集群服务的网络流向的描述
以下是快速视觉回顾。

在Kubernetes中，您的应用程序通过两层负载均衡器公开：内部和外部。

内部的负载均衡器称为Service，而外部的负载均衡器称为Ingress。

pod未直接部署。相反，deploymeny会在其上创建和watchPod。

假设您希望部署一个简单的Hello World应用程序，则该应用程序的YAML应该类似于以下内容：

<code>apiVersion: apps/v1
kind: Deployment
metadata:
  name: my-deployment
  labels:
    track: canary
spec:
  selector:
    matchLabels:
      any-name: my-app
  template:
    metadata:
      labels:
        any-name: my-app
    spec:
      containers:
      - name: cont1
        image: learnk8s/app:1.0.0
        ports:
        - containerPort: 8080
---
apiVersion: v1
kind: Service
metadata:
  name: my-service
spec:
  ports:
  - port: 80
    targetPort: 8080
  selector:
    name: app
---
apiVersion: networking.k8s.io/v1beta1
kind: Ingress
metadata:
  name: my-ingress
spec:
  rules:
  - http:
    paths:
    - backend:
        serviceName: app
        servicePort: 80 

      path: /
/<code>

定义很长，很容易忽略组件之间的相互关系
例如：

什么时候应使用端口80，何时应使用端口8080？
您是否应该为每个服务创建一个新端口，以免它们冲突？
标签名称重要吗？所有的都应该一样吗？

在进行调试之前，让我们回顾一下这三个组件如何相互链接。
让我们从Deployment和Service开始。

连接Deployment和Service

令人惊讶的消息是，Deployment和Service根本没有连接。
而是，该服务直接指向Pod，并完全跳过部署。
因此，您应该注意的是Pod和Service之间的相互关系。
您应该记住三件事：

服务选择器应至少与Pod的一个标签匹配
服务targetPort应与containerPortPod中容器的匹配

服务port可以是任何号码。多个服务可以使用同一端口，因为它们分配了不同的IP地址。
下图总结了如何连接端口：

考虑Service暴露的以下Pod。

创建Pod时，应为Pod containerPort中的每个容器定义端口。

创建服务时，可以定义port和targetPort。但是您应该连接哪一个容器？

targetPort并且containerPort应该始终匹配

如果您的容器暴露了端口3000，则targetPort应当与该端口号匹配。

如果您查看YAML，则标签和ports/ targetPort应该匹配：

<code>apiVersion: apps/v1
kind: Deployment
metadata:
  name: my-deployment
  labels:
    track: canary
spec:
  selector:
    matchLabels:
      any-name: my-app 

  template:
    metadata:
      labels:
        any-name: my-app
    spec:
      containers:
      - name: cont1
        image: learnk8s/app:1.0.0
        ports:
        - containerPort: 8080
---
apiVersion: v1
kind: Service
metadata:
  name: my-service
spec:
  ports:
  - port: 80
    targetPort: 8080
  selector:
    any-name: my-app
/<code>

Deployment 头部的track: canary是什么？
那也应该匹配吗？
该标签属于Deployment，Service的选择器未使用它来路由流量。
换句话说，您可以安全地删除它或为其分配其他值。
那matchLabels选择器呢？
它始终必须与Pod标签匹配，并且由Deployment用来跟踪Pod。
假设您进行了正确的更改，如何测试它？
您可以使用以下命令检查Pod是否具有正确的标签：

<code>kubectl get pods --show-labels
/<code>

或者，如果您具有属于多个应用程序的Pod：

<code>kubectl get pods --selector any-name=my-app --show-labels
/<code>

any-name=my-app标签在哪里any-name: my-app。
还有问题吗？
您也可以连接到Pod！
您可以使用kubectl中的port-forward命令连接到服务并测试连接。

<code>kubectl port-forward service/<service> 3000:80
/<service>/<code>

如果：

service/ 是服务的名称-在当前的YAML中是my-service
3000是您希望在计算机上打开的端口
80是服务在port现场暴露的端口
如果可以连接，则说明设置正确。
如果不行，则很可能是您放错了标签或端口不匹配。连接Service和ingress暴露您的应用的下一步是配置Ingress。

Ingress必须知道如何检索服务，然后检索Pod并将流量路由到它们。

Ingress按名称和公开的端口检索正确的服务。

在Ingress和Service中应该匹配两件事：

在Ingress中该servicePort应该匹配port的服务
在Ingress中该serviceName应该匹配name的服务
下图总结了如何连接端口：

您已经知道该服务公开了一个端口。

Ingress有一个名为servicePort的字段

Service端口和ingress servicePort应始终匹配。

如果决定为服务分配端口80，则也应将servicePort更改为80。

在实践中，您应该查看以下几行：

<code>apiVersion: v1
kind: Service
metadata:
  name: my-service
spec:
  ports:
  - port: 80
    targetPort: 8080
  selector:
    any-name: my-app
---
apiVersion: networking.k8s.io/v1beta1
kind: Ingress
metadata:
  name: my-ingress
spec:
  rules:
  - http:
    paths:
    - backend:
        serviceName: my-service
        servicePort: 80
      path: /
/<code>

您如何测试Ingress的功能？
您可以使用与以前相同的策略kubectl port-forward，但是应该连接到Ingress控制器，而不是连接到服务。
首先，使用以下命令检索Ingress控制器的Pod名称：

<code>kubectl get pods --all-namespaces
NAMESPACE   NAME                              READY STATUS
kube-system coredns-5644d7b6d9-jn7cq          1/1   Running
kube-system etcd-minikube                     1/1   Running
kube-system kube-apiserver-minikube           1/1   Running
kube-system kube-controller-manager-minikube  1/1   Running
kube-system kube-proxy-zvf2h                  1/1   Running
kube-system kube-scheduler-minikube           1/1   Running
kube-system nginx-ingress-controller-6fc5bcc  1/1   Running 

/<code>

确定Ingress Pod（可能在不同的命名空间中）并描述它以检索端口

<code>kubectl describe pod nginx-ingress-controller-6fc5bcc \\
 --namespace kube-system \\
 | grep Ports
Ports:         80/TCP, 443/TCP, 18080/TCP
/<code>

最后，连接到Pod：

<code>kubectl port-forward nginx-ingress-controller-6fc5bcc 3000:80 --namespace kube-system
/<code>

此时，每次您访问计算机上的端口3000时，请求都会转发到Ingress控制器Pod上的端口80。
如果访问本地3000端口

回顾端口

快速回顾一下哪些端口和标签应该匹配：

服务选择器应与Pod的标签匹配
服务targetPort应与containerPortPod中容器的匹配
服务端口可以是任何数字。多个服务可以使用同一端口，因为它们分配了不同的IP地址。
在servicePort该入口的应该匹配port在服务
服务名称应与serviceNameIngress 中的字段匹配

知道如何构造YAML定义只是故事的一部分。
出问题了怎么办？
Pod可能无法启动，或者正在崩溃。

解决Kubernetes Deployment问题的3个步骤

在深入研究异常的Deployment之前，必须有一个明确定义的Kubernetes工作方式的思维模型。
由于每个部署中都有三个组件，因此您应该从底部开始依次调试所有组件。

您应该确保Pods正在运行，然后
专注于让服务将流量路由到Pod，然后
检查是否正确配置了Ingress

您应该从底部开始对Deployment进行故障排除。首先，检查Pod是否已就绪并正在运行。

如果Pod已就绪，则应调查服务是否可以将流量分配给Pod。

最后，您应该检查服务与入口之间的连接。

Pod故障排除

在大多数情况下，问题出在Pod本身。
您应该确保Pod正在运行并准备就绪。
您如何检查？

<code>kubectl get pods
NAME                    READY STATUS            RESTARTS  AGE
app1                    0/1   ImagePullBackOff  0         47h
app2                    0/1   Error             0         47h
app3-76f9fcd46b-xbv4k   1/1   Running           1         47h
/<code>

在上述会话中，最后一个Pod为Running and Ready - 但是，前两个Pod 既不是Running也不为Ready。
您如何调查出了什么问题？
有四个有用的命令可以对Pod进行故障排除：

kubectl logs 有助于检索Pod容器的日志
kubectl describe pod 检索与Pod相关的事件列表很有用
kubectl get pod 用于提取存储在Kubernetes中的Pod的YAML定义
kubectl exec -ti bash 在Pod的一个容器中运行交互式命令很有用
您应该使用哪一个？
没有一种万能的。
相反，您应该结合使用它们。

常见pod错误

Pod可能会出现启动和运行时错误。
启动错误包括：

ImagePullBackoff
ImageInspectError
ErrImagePull
ErrImageNeverPull
registry不可用
InvalidImageName
运行时错误包括：
CrashLoopBackOff
RunContainerError
KillContainerError
VerifyNonRootError
RunInitContainerError
CreatePodSandboxError
ConfigPodSandboxError
KillPodSandboxError
SetupNetworkError
TeardownNetworkError
有些错误比其他错误更常见。
以下是最常见的错误以及如何修复它们的列表。

ImagePullBackOff

当Kubernetes无法检索Pod容器之一的registry时，将出现此错误。

共有三个罪魁祸首：

image名称无效-例如，您拼错了名称，或者image不存在
您为image指定了不存在的标签
您尝试检索的image属于一个私有registry，而Kubernetes没有凭据可以访问它
前两种情况可以通过更正image名称和标记来解决。
最后，您应该将凭证添加到secret中的私人resistry中，并在Pod中引用它。

CrashLoopBackOff

如果容器无法启动，则Kubernetes将CrashLoopBackOff消息显示为状态。
通常，在以下情况下容器无法启动：

应用程序中存在错误，导致无法启动
您未正确配置
Liveness探针失败太多次
您应该尝试从该容器中检索日志，以调查其失败的原因。
如果由于容器重新启动太快而看不到日志，则可以使用以下命令：

<code>kubectl logs <pod-name> --previous 

/<pod-name>/<code>

将打印前一个容器的错误信息

RunContainerError

当容器无法启动时出现错误。
甚至在容器内的应用程序启动之前。
该问题通常是由于配置错误，例如：

挂载不存在的卷，例如ConfigMap或Secrets
将只读卷安装为可读写

您应该使用kubectl describe pod <pod-name>收集和分析错误。/<pod-name>

Pods处于Pending状态

当您创建Pod时，该Pod保持Pending状态。
为什么？
假设您的调度程序组件运行良好，原因如下：

群集没有足够的资源（例如CPU和内存）来运行Pod
当前的命名空间具有ResourceQuota对象，创建Pod将使命名空间超过配额
该Pod绑定到一个待处理的 PersistentVolumeClaim
检查event部分最好的办法是运行kubectl describe命令：kubectl describe pod
对于因ResourceQuotas而导致的错误，可以使用以下方法检查群集的日志：kubectl get events --sort-by=.metadata.creationTimestampPods处于 not Ready状态如果Pod正在运行但not Ready，则表明readiness探针失败。
当readiness探针失败时，Pod未连接到服务，并且没有流量转发到该实例。
准备就绪探针失败是特定于应用程序的错误，因此您应通过kubectl describe检查其中的event部分以识别错误。Service故障排除如果您的Pod正在运行并处于就绪状态，但仍无法收到应用程序的响应，则应检查服务的配置是否正确。
服务旨在根据流量的标签将流量路由到Pod。
因此，您应该检查的第一件事是服务定位了多少个Pod。
您可以通过检查Service中的endpoint来做到这一点：kubectl describe service <service-name> | grep Endpoints端点是一对，并且在服务以Pod为目标时，应该至少有一个。
如果”Endpoints”部分为空，则有两种解释：/<service-name>
您没有运行带有正确标签的Pod（提示：您应检查自己是否在正确的命名空间中）
您selector在服务标签上有错字
如果您看到端点列表，但仍然无法访问您的应用程序，则targetPort可能是您服务中的罪魁祸首。

您如何测试服务？
无论服务类型如何，您都可以使用kubectl port-forward它来连接：kubectl port-forward service/<service-name> 3000:80即：/<service-name>
是服务的名称
3000 是您希望在计算机上打开的端口
80 是服务公开的端口

对Ingress进行故障排除

如果您已到达本节，则：

pod正在运行并准备就绪
服务会将流量分配到Pod
但是您仍然看不到应用程序的响应。
这意味着最有可能Ingress配置错误。
由于正在使用的Ingress控制器是集群中的第三方组件，因此有不同的调试技术，具体取决于Ingress控制器的类型。
但是在深入研究Ingress专用工具之前，您可以检查一些简单的方法。
入口使用serviceName和servicePort连接到服务。
您应该检查这些配置是否正确。
您可以检查是否已使用以下命令正确配置了Ingress：kubectl describe ingress <ingress-name>如果Backend列为空，则配置中一定有一个错误。

如果您可以在Backend列中看到端点，但仍然无法访问该应用程序，则可能是以下问题：/<ingress-name>
您如何将Ingress暴露于公共互联网
您如何将群集暴露于公共互联网
您可以通过直接连接到Ingress Pod来将基础结构问题与Ingress隔离开。
首先，为您的Ingress控制器（可以位于其他名称空间中）检索Pod：

<code>kubectl get pods --all-namespaces
NAMESPACE   NAME                              READY STATUS
kube-system coredns-5644d7b6d9-jn7cq          1/1   Running
kube-system etcd-minikube                     1/1   Running
kube-system kube-apiserver-minikube           1/1   Running
kube-system kube-controller-manager-minikube  1/1   Running
kube-system kube-proxy-zvf2h                  1/1   Running
kube-system kube-scheduler-minikube           1/1   Running
kube-system nginx-ingress-controller-6fc5bcc  1/1   Running
/<code>

describe以检索端口：

<code>kubectl describe pod nginx-ingress-controller-6fc5bcc --namespace kube-system \\
 | grep Ports
/<code>

最后，连接到Pod：

<code>kubectl port-forward nginx-ingress-controller-6fc5bcc 3000:80 --namespace kube-system
/<code>

此时，每次您访问计算机上的端口3000时，请求都会转发到Pod上的端口80。
现在可以用吗？

如果可行，则问题出在基础架构中。您应该调查流量如何路由到您的群集。
如果不起作用，则问题出在Ingress控制器中。您应该调试Ingress。
如果仍然无法使Ingress控制器正常工作，则应开始对其进行调试。
有许多不同版本的Ingress控制器。
热门选项包括Nginx，HAProxy，Traefik等。
您应该查阅Ingress控制器的文档以查找故障排除指南。
由于ingress nginx是最受欢迎的Ingress控制器，因此在下一部分中我们将介绍一些技巧。

调试Ingress Nginx

Ingress-nginx项目有一个kubectl plugin。
您可以kubectl ingress-nginx用来：

检查日志，后端，证书等。
连接到入口
检查当前配置
您应该尝试的三个命令是：
kubectl ingress-nginx lint，它会检查 nginx.conf
kubectl ingress-nginx backend，以检查后端（类似于kubectl describe ingress ）
kubectl ingress-nginx logs，查看日志请注意，您可能需要使用来为Ingress控制器指定正确的名称空间—namespace 。

摘要

如果您不知道从哪里开始，在Kubernetes中进行故障排除可能是一项艰巨的任务。
您应该始终牢记从下至上解决问题：从Pod开始，然后通过Service and Ingress向上移动堆栈。
您在本文中了解到的相同调试技术可以应用于其他对象，例如：
失败的Jobs和CronJobs，StatefulSets 和 DaemonSets

分享到:

閱讀更多 有點技術 的文章

關鍵字: YAML 可视化技术应用程序

第二章 IoC容器和Bean配置

bean是一个对象，它是由Spring

运算里不得不说的python模块—math

Help

Devops度量--DevOps 现状快速检查表

今天主要分享一个DevOps

SOP是什么（解读）

SOP不是单个的，是一个体系，虽然我们可以单独地定义每一个SOP，但真正从企业管理来看，SOP不可能只是单个的，必然是一个整体和体系，也是企业不可或缺的。

还不知道交换机上如何配置DHCP，赶紧过来围观吧，一分钟包你学会

随着终端设备的越来越多，人工干预配置IP地址，不仅工作效率低，而且，还很容易导致IP冲突，影响正常的网络访问。到此已经完成了，DHCP服务的配置了，我们可以在终端验证。

还在手动配置IP地址吗？太Low了，一分钟教会您如何配置DHCP

Python爬虫自学笔记：分析头条文章网页源文件

这两天分析了一下头条文章网页的源文件，现在将分析的结果分享给大家。首先以一篇文章为例，其网址如下：https://www.toutiao.com/i6822245428176617998/如上图网页所示，文章中包含文字和图片。

DNS侦查工具

我们只需要打开浏览器输入例如:www.baidu.com就可以解析到该网站.为了便于记住不需要输入长长的IP地址去访问这就是DNS域名解析.关于域名域名的层次划分用点来分割这时DNS把相对应的域名解析成IP地址高的在右边.例如:www. NS简介访问某网站的时候最低在左边

国人开源的异步 Python ORM：GINO

程序测评：Create React App 3.3中有哪些酷炫新功能？

Create

“明学”的魅力？我只要我觉得：驾驭终端，提高生产力

最后一个要介绍的命令是

（必收藏系列）Linux面试题——命令集

关注，后台私信【Linux】分享Linux入门到进阶电子书、Linux入门到精通视频教程（免费）。文件管理命令cat

五分钟学会如何在 IPFS 上部署网站

原文标题:五分钟学会如何在

「正点原子NANO STM32F103开发板资料连载」第29章内存管理实验

1）实验平台：【正点原子】

小白怎么学Web前端开发如何成为技术达人

Web前端开发工程师已经成为了很多年轻人心中的理想工作，不仅入行门槛低、而且薪资待遇和发展前景都不错，自然吸引了大批人加入行业。

如何开发一个web静态服务器

我们都知道如今的web服务器有很多，比如著名的有apache，有nginx，有tomcat，有resin服务器，有sphere，有iis服务器等等，这些服务器都能提供web服务，并且几乎都能和多种语言进行搭配使用，那么一个web服务器都需要那些功能，开发一个web服务器都需要那些

学Java编程还有前景吗如何才能拿到高薪

需求大、薪资高似乎是Java开发人员的标签，不过学Java编程还有前景吗？它架构在操作系统之上，屏蔽了底层的差异，真正实现了“Writeonce run

Python网络爬虫之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例实现前后分离权限注解+JWT登录认证

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的运行效率太低？几行代码快速提升！

return的就是是你所需要的结果2.3、运行这一步就是最后一步了，只要像下面一样输入上述函数名，赋予参数值，点击运行Run，就能得到你想要的结果arg1=5

python的优点是什么？最新Python400集视频（附教程）

2020，最新Python零基础到精通资料教材，干货分享，新基础Python教材，稳稳找到过万工作，看这里，这里有你想要的所有资源哦，最强笔记，教你怎么入门提升！获取方式：私信小编“

MySQL中OOM故障应如何下手-爱可生

作者：孙祚龙爱可生南区分公司交付服务部成员，实习工程师。负责公司产品问题排查及日常运维工作。本文来源：原创投稿*爱可生开源社区出品，原创内容未经授权不得随意使用，转载请联系小编并注明来源。

像专家一样使用 panic

|go

30种不同的编程语言怎么写“Hello, World”

printfn

percona QAN 介绍

一、背景QAN慢查询日志分析工具是PMM

面试官：你可以用纯CSS判断鼠标进入的方向吗？

虽然没什么软用，但是对付面试官应该是够用了。感谢面试官提出的问题，让我实现了这个功能，对CSS

网络工程师职业生涯中，哪两点是最重要的？

网络工程师最重要的技能是扎实的基础和非常开放的思维，微观知识扎实、宏观能力突出。项目经验也会让网络工程师基础更牢靠，网络工程师是要实战的，要避免纸上谈兵，我认为对基础理论的理解，比你清楚配置更重要。

交换机中相关术语代表什么意思，有必要弄清楚

由浅入深了解以太坊 2.0：最常见问题和最全学习清单

有关以太坊2.0

【Linux简单实用小命令001】CentOS 7、8的防火墙端口开放

yuminstall

吃透这些IPFS硬核知识点，日后抢头矿随时“弯道超车”

今天的你捉住IPFS机遇了吗？我们都知道在Filecoin网络中作为一名存储矿工，信誉对于我们是非常重要的——信誉越高，爆块几率越大。那么信誉系统现在怎么样了呢？

Hive分桶表

fieldsterminated

Spring中资源的加载原来是这么一回事啊！

自己动手搭建邮件系统：怎样让Exchange Server 发出第一封邮件？

编辑Exchange

$【MySQL】RDS物理备份文件(.idb\.frm)恢复到MySQL自建数据库$

【MySQL】RDS物理备份文件(.idb\.frm)恢复到MySQL自建数据库

在阿里云控制台，我们能下载的文件是一个压缩包，解压之后，是.idb和.frm文件，你可能要问了，我可以直接把解压好的问题件覆盖到MySQL的data目录下吗？

NLP算法入门系列：隐含马尔可夫链(HMM)模型的简单介绍

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度学习这样实现人脸的年龄检测

前期的文章我们分享了人脸的识别以及如何进行人脸数据的训练，本期文章我们结合人脸识别的模型进行人脸年龄的检测人脸年龄的检测步骤1、首先需要进行人脸的检测2、把检测到的人脸数据给年龄检测模型去检测3、把检测结果呈现到图片上人脸年龄检测import

嵌入式linux网络编程之——5年程序员给你深度讲解socket套接字

图8-1

深入了解ProcessFunction的状态操作(Flink-1.10)

先反思为何会有上述疑惑上述疑惑产生的原因，应该是受到平时使用HashMap的影响，HashMap获取值就是在调用get方法时指定key，设置值也是在put时指定key，所以看到state.value，看懂了这些，其实也是在了解DataStream/DataSetAPI的设计思路：

Redis内存分析工具--rdr安装与使用

分析Redis

资深架构师教你源码讲解zookeeper实现分布式锁以及集群搭建步骤

//getData发现前一个子节点被删除，抛出异常

一行代码提升迁移性能

论文原址：https://arxiv.org/pdf/2003.12237.pdf开源地址：https://github.com/cuishuhao/BNM在发表在CVPR2020

利用相似几何信息，做可泛化3D形状分割模型

更具体的有以下三种典型的分割方案：FullyConvolutional-Like

这么好用的开源计算器SpeedCrunch，没有不尝试一下的道理

介绍SpeedCrunch是一款高精度科学计算器，具有快速，键盘驱动的用户界面。获取方式在GitHub上搜索SpeedCrunch，就可以去到

分布式缓存，真香

他是前易宝支付架构师、阿里云MVP、腾讯云

特征工程的力量

在本文中，我希望教给您一些有关特征工程的知识，以及如何使用它来对非线性决策边界进行建模。为了说明这一点，假设恢复时间与身高和体重具有以下关系：Y=β₀+β₁+β2+β₃+noise从第三项来看，我们可以看到Y与身高和体重没有线性关系。

java架构：天天写面向接口编程，你考虑过性能吗？大神都是这么写

public

SpringBoot如何优雅的使用RocketMQ

源码编译需要Maven3.2x，JDK8在根目录进行打包:Copymvn-Prelease-all

css代码规范工具stylelint

"mixin"