k8s基于Descheduler的二次调度

作者: 疯疯疯子子子 | 来源:发表于2020-11-25 10:55 被阅读0次

k8s基于Descheduler的二次调度
Descheduler 实现 K8S Pod 二次调度
Kubernetes 中 Descheduler 组件的使用与扩
【k8s系列5】KubernetesClientExceptio
k8s 调度
Nginx动态发现多种方案研究实战
k8s vs openshift
ChartCenter ——为您的K8s之旅保驾护航
把显卡/GPU跑在k8s集群里
koordinator简介

前言

Kubernetes中的调度是将挂起的Pod绑定到节点的过程，由Kubernetes的一个称为kube-scheduler的组件执行。调度程序的决定（是否可以调度Pod或在何处调度）由其可配置策略指导，该策略由称为谓词和优先级的一组规则组成。当出现新的Pod进行调度时，调度程序的决定会受到其对Kubernetes集群的看法的影响。由于Kubernetes集群非常动态，并且其状态会随着时间而变化，因此出于各种原因，可能希望将已经运行的Pod移动到其他一些节点

一些节点利用率低下或过度使用。
原始的调度决策不再成立，因为将污点或标签添加到节点或从节点删除，节点/节点亲和力要求不再满足。
一些节点发生故障，并且其pod移至其他节点。
新节点将添加到群集。
因此，可能在群集中不太理想的节点上安排了多个Pod。Descheduler根据其政策找到可以移动的node并将其逐出。请注意，在当前的实现中，descheduler不会安排被驱逐的node的替换，而是依赖于默认的安排器。

部署方式

官方支持两种方式进行部署 Job 和CronJob

kubectl create -f kubernetes/base/rbac.yaml
kubectl create -f kubernetes/base/configmap.yaml
kubectl create -f kubernetes/job/job.yaml

kubectl create -f kubernetes/base/rbac.yaml
kubectl create -f kubernetes/base/configmap.yaml
kubectl create -f kubernetes/cronjob/cronjob.yaml

策略

目前 Descheduler 支持8大策略，默认情况下均已开启下面逐一介绍

RemoveDuplicates

该策略确保只有一个Pod与在同一节点上运行的副本集（RS），复制控制器（RC），部署或作业相关联。如果有更多的Pod，则将这些重复的Pod逐出，以更好地在群集中扩展Pod。如果某些节点由于任何原因而崩溃，并且它们上的Pod移至其他节点，导致多个与RS或RC关联的Pod（例如，在同一节点上运行），则可能发生此问题。一旦发生故障的节点再次准备就绪，便可以启用此策略以驱逐这些重复的Pod。
当前该策略提供了下列参数

参数

Name	Type
`excludeOwnerKinds`	list(string)
`namespaces`	(see namespace filtering)
`thresholdPriority`	int (see priority filtering)
`thresholdPriorityClassName`	string (see priority filtering)

例子

apiVersion: "descheduler/v1alpha1"
kind: "DeschedulerPolicy"
strategies:
  "RemoveDuplicates":
     enabled: true
     params:
       removeDuplicates:
         excludeOwnerKinds:
         - "ReplicaSet"

LowNodeUtilization

该策略查找未充分利用的节点，并从其他节点驱逐 Pod，以便 kube-scheudler 重新将它们调度到未充分利用的节点上。该策略的参数可以通过字段 nodeResourceUtilizationThresholds 进行配置。
节点的利用率不足可以通过配置 thresholds 阈值参数来确定，可以通过 CPU、内存和 Pod 数量的百分比进行配置。如果节点的使用率均低于所有阈值，则认为该节点未充分利用。
此外，还有一个可配置的阈值 targetThresholds，该阈值用于计算可从中驱逐 Pod 的那些潜在节点，对于所有节点 thresholds 和 targetThresholds 之间的阈值被认为是合理使用的，不考虑驱逐。targetThresholds 阈值也可以针对 CPU、内存和 Pod 数量进行配置。thresholds 和 targetThresholds 可以根据你的集群需求进行动态调整。

参数

Name	Type
`thresholds`	map(string:int)
`targetThresholds`	map(string:int)
`numberOfNodes`	int
`thresholdPriority`	int (see priority filtering)
`thresholdPriorityClassName`	string (see priority filtering)

例子

apiVersion: "descheduler/v1alpha1"
kind: "DeschedulerPolicy"
strategies:
  "LowNodeUtilization":
     enabled: true
     params:
       nodeResourceUtilizationThresholds:
         thresholds:
           "cpu" : 20
           "memory": 20
           "pods": 20
         targetThresholds:
           "cpu" : 50
           "memory": 50
           "pods": 50

注意如果未指定任何资源类型，则其所有阈值均默认为100％，以避免节点从未充分利用变为过度利用。
与该LowNodeUtilization策略相关的另一个参数称为numberOfNodes。仅当未充分利用的节点数大于配置的值时，才可以配置此参数以激活策略。这在大型群集中很有用，其中一些节点可能会频繁使用或短期使用不足。默认情况下，numberOfNodes设置为零。

RemovePodsViolatingInterPodAntiAffinity

此策略可确保从节点中删除违反了脚间抗亲和性的node。例如，如果一个节点上有podA，并且podB和podC（在同一节点上运行）具有禁止它们在同一节点上运行的反关联性规则，则podA将被从该节点驱逐，以便podB和podC可以跑。当podB和podC的反关联性规则已在节点上运行时，如果它们创建了反关联性规则，则可能会发生此问题

参数

Name	Type
`thresholdPriority`	int (see priority filtering)
`thresholdPriorityClassName`	string (see priority filtering)
`namespaces`	(see namespace filtering)

例子

apiVersion: "descheduler/v1alpha1"
kind: "DeschedulerPolicy"
strategies:
  "RemovePodsViolatingInterPodAntiAffinity":
     enabled: true

RemovePodsViolatingNodeAffinity

该策略确保最终将所有违反节点亲缘关系的node 从节点中删除。节点相似性规则允许Pod指定 requiredDuringSchedulingIgnoredDuringExecution类型，该类型告诉调度程序在调度Pod时尊重节点相似性，而kubelet忽略节点随时间变化而不再尊重相似性的情况。启用后，该策略requiredDuringSchedulingRequiredDuringExecution将用作kubelet的临时实现并逐出该kubelet，不再考虑节点亲和力。

例如，在节点A上调度了podA，该Pod满足了调度时的节点亲缘性规则requiredDuringSchedulingIgnoredDuringExecution。随着时间的流逝，nodeA停止满足该规则。当执行该策略并且存在另一个可用的满足节点亲缘关系规则的节点时，podA被从nodeA中逐出。

参数

Name	Type
`nodeAffinityType`	list(string)
`thresholdPriority`	int (see priority filtering)
`thresholdPriorityClassName`	string (see priority filtering)
`namespaces`	(see namespace filtering)

例子

apiVersion: "descheduler/v1alpha1"
kind: "DeschedulerPolicy"
strategies:
  "RemovePodsViolatingNodeAffinity":
    enabled: true
    params:
      nodeAffinityType:
      - "requiredDuringSchedulingIgnoredDuringExecution"

RemovePodsViolatingNodeTaints

此策略可确保删除节点上违反NoSchedule污点的node。例如，存在具有容忍度的pod“ podA”，以容忍key=value:NoSchedule在受污染节点上计划并运行的污染。如果节点的污点随后被更新/删除，则污点将不再由其容器的容忍度所满足，并将被逐出。

参数

Name	Type
`thresholdPriority`	int (see priority filtering)
`thresholdPriorityClassName`	string (see priority filtering)
`namespaces`	(see namespace filtering)

例子

apiVersion: "descheduler/v1alpha1"
kind: "DeschedulerPolicy"
strategies:
  "RemovePodsViolatingNodeTaints":
    enabled: true

RemovePodsViolatingTopologySpreadConstraint

该策略确保从节点驱逐违反拓扑扩展约束的node。具体而言，它尝试逐出将拓扑域平衡到每个约束的内所需的最小Pod数maxSkew。此策略至少需要k8s 1.18版。

参数

Name	Type
`thresholdPriority`	int (see priority filtering)
`thresholdPriorityClassName`	string (see priority filtering)
`namespaces`	(see namespace filtering)

例子

apiVersion: "descheduler/v1alpha1"
kind: "DeschedulerPolicy"
strategies:
  "RemovePodsViolatingTopologySpreadConstraint":
     enabled: true

RemovePodsHavingTooManyRestarts

此策略确保从节点中删除重启次数过多的Pod。例如，具有EBS / PD的Pod无法将卷/磁盘附加到实例，则应该将该Pod重新安排到其他节点。它的参数包括podRestartThreshold，它是应将Pod逐出的重新启动次数，以及includingInitContainers，它确定在计算中是否应考虑初始化容器的重新启动。

参数

Name	Type
`podRestartThreshold`	int
`includingInitContainers`	bool
`thresholdPriority`	int (see priority filtering)
`thresholdPriorityClassName`	string (see priority filtering)
`namespaces`	(see namespace filtering)

例子

apiVersion: "descheduler/v1alpha1"
kind: "DeschedulerPolicy"
strategies:
  "RemovePodsHavingTooManyRestarts":
     enabled: true
     params:
       podsHavingTooManyRestarts:
         podRestartThreshold: 100
         includingInitContainers: true

PodLifeTime

此策略驱逐早于的podmaxPodLifeTimeSeconds。
您还可以指定podStatusPhases到only具体逐出豆荚StatusPhases，目前该参数仅限于Running和Pending

参数

Name	Type
`maxPodLifeTimeSeconds`	int
`podStatusPhases`	list(string)
`thresholdPriority`	int (see priority filtering)
`thresholdPriorityClassName`	string (see priority filtering)
`namespaces`	(see namespace filtering)

例子

apiVersion: "descheduler/v1alpha1"
kind: "DeschedulerPolicy"
strategies:
  "PodLifeTime":
     enabled: true
     params:
       podLifeTime:
         maxPodLifeTimeSeconds: 86400
         podStatusPhases:
         - "Pending"

测试

这里部署，我们采用了Job的方式进行直接创建上面的3个资源对象即可，运行成功后我们可以通Descheduler 的 Job 任务的日志(截取了部分)：可以看到Descheduler 已经按照我们的预期策略开始进行驱除调度了

kubectl logs descheduler-job-9dkq8 -n kube-system
I1125 00:59:53.756563       1 node.go:45] node lister returned empty list, now fetch directly
I1125 00:59:53.773093       1 duplicates.go:73] Processing node: "ga-k8s-xs1"
I1125 00:59:53.827292       1 duplicates.go:73] Processing node: "ga-k8s-xs10"
.....
.....
I1125 00:59:58.009104       1 lownodeutilization.go:197] Node "ga-k8s-xs13" is under utilized with usage: api.ResourceThresholds{"cpu":28.958333333333332, "memory":25.20574008276515, "pods":40}
I1125 00:59:58.009331       1 lownodeutilization.go:203] Node "ga-k8s-xs5" is appropriately utilized with usage: api.ResourceThresholds{"cpu":75.41666666666667, "memory":55.74897885562279, "pods":40.90909090909091}

I1125 00:59:58.011555       1 lownodeutilization.go:127] Total number of nodes above target utilization: 6
I1125 00:59:58.011590       1 lownodeutilization.go:244] Total capacity to be moved: CPU:6125, Mem:2.88490815488e+10, Pods:22
I1125 00:59:58.011612       1 lownodeutilization.go:245] ********Number of pods evicted from each node:***********
I1125 00:59:58.011628       1 lownodeutilization.go:252] evicting pods from node "ga-k8s-xs8" with usage: api.ResourceThresholds{"cpu":87.91666666666667, "memory":72.50633481772661, "pods":26.363636363636363}
I1125 00:59:58.011863       1 lownodeutilization.go:255] allPods:29, nonRemovablePods:28, removablePods:1
I1125 00:59:58.011884       1 lownodeutilization.go:262] evicting pods based on priority, if they have same priority, they'll be evicted based on QoS tiers
I1125 00:59:58.121775       1 evictions.go:117] Evicted pod: "apigate-656784588c-s5wzw" in namespace "kube-matomo" (LowNodeUtilization)
I1125 00:59:58.121962       1 lownodeutilization.go:302] Evicted pod: "apigate-656784588c-s5wzw"
I1125 00:59:58.122033       1 lownodeutilization.go:315] updated node usage: api.ResourceThresholds{"cpu":83.75, "memory":70.51473082888613, "pods":25.454545454545453}
I1125 00:59:58.122070       1 lownodeutilization.go:267] 1 pods evicted from node "hzxs-qa1-ga-k8s-xs8" 
I1125 01:00:00.512397       1 lownodeutilization.go:315] updated node usage: api.ResourceThresholds{"cpu":91.25000000000001, "memory":49.65068744179323, "pods":35.45454545454547}
.....
......
I1125 01:00:11.472646       1 lownodeutilization.go:139] Total number of pods evicted: 22

k8s基于Descheduler的二次调度
前言 Kubernetes中的调度是将挂起的Pod绑定到节点的过程，由Kubernetes的一个称为kube-sc...
Descheduler 实现 K8S Pod 二次调度
前言 Kubernetes中的调度是将待处理的pod绑定到节点的过程，由Kubernetes的一个名为kube-s...
Kubernetes 中 Descheduler 组件的使用与扩
Descheduler 组件简介实例在新建时，调度器可以根据当时集群状态选择最优节点进行调度，但集群内资源使用状...
【k8s系列5】KubernetesClientExceptio
背景公司目前在基于k8s做调度（基于io.fabric8:kubernetes-client:4.2.0），在运...
k8s 调度
k8s 调度
Nginx动态发现多种方案研究实战
1 背景很多公司都有做动态调度系统，有些是基于mesos+docker，有些采用了google的K8s，或者是自...
k8s vs openshift
openshift 是红帽基于 k8s 之上开发的一套容器化调度服务，在接入openshift 时碰到的一些坑记录...
ChartCenter ——为您的K8s之旅保驾护航
一、背景 Kubernetes(k8s)是一个基于容器技术的分布式架构领先方案，为容器化应用提供部署运行、资源调度...
把显卡/GPU跑在k8s集群里
使k8s集群可以调度GPU 背景：最近接到任务,要使k8s集群支持调度GPU,我对硬件资源不是很懂,大概看了看官方...
koordinator简介
简介针对在k8s上运行混合工作负载的基于qos的调度系统架构特点就我个人而言,比较喜欢的是1: 动态调整c...

k8s基于Descheduler的二次调度

前言

部署方式

策略

RemoveDuplicates

参数

例子

LowNodeUtilization

参数

例子

RemovePodsViolatingInterPodAntiAffinity

参数

例子

RemovePodsViolatingNodeAffinity

参数

例子

RemovePodsViolatingNodeTaints

参数

例子

RemovePodsViolatingTopologySpreadConstraint

参数

例子

RemovePodsHavingTooManyRestarts

参数

例子

PodLifeTime

参数

例子

测试

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读