调度器分析及完全公平调度器CFS
调度器分析
调度器
- 内核中安排进程执行的模块,用以切换进程状态。
- 做两件事:选择某些就绪进程来执行;打断某些执行的进程让其变为就绪状态。
- 分配CPU时间的基本依据:进程优先级。
上下文切换(context switch):将进程在CPU中切换执行的过程,内核承担 此任务,负责重建和存储被切换掉之前的CPU状态。
调度类sched_class结构体与调度类
sched_class结构体表示调度类,定义在kernel/sched/sched.h。
- 成员解析
ecqueue_task:向就绪队列添加一个进程,某个任务进入可运行状态时,该函数将会被调用,它将调度实体放入到红黑树中。
dequeue_task:将一个进程从就绪队列中进行删除,当某个任务退出可运行状态时调用该函数,它将从红黑树中去掉对应调度实体。
yield_task:在进程想要资源放弃对处理器的控制权时,可食用在sched_yield系统调用,会调用内核API去处理操作。
check_preempt_curr:检查当前运行任务是否被抢占。
pick_next_task:选在接下来要运行的最合适的实体(进程)。
put_prev_task:用于另一个进程代替当前运行的进程。
set_curr_task:当任务修改它的调用类或修改它的任务组时,将调用这个函数。
task_tick:在每次激活周期调度器时,由周期性调度器调用。 - 源码注释
// 系统当中有多个调度类,按照调度优先级排成一个链表,下一个优先级调度类
const struct sched_class *next;
// 将进程加入到执行队列当中,即将调度实体(进程)存放到红黑树中,并对nr_running变量自动加1
void (*enqueue_task) (struct rq *rq, struct task_struct *p, int flags);
// 从执行队列当中删除进程,并对nr_running变量自动减1
void (*dequeue_task) (struct rq *rq, struct task_struct *p, int flags);
// 放弃CPU执行权,实际上该函数执行先出队后入队,在这种情况下,它直接将调度实体放在红黑树的最右端
void (*yield_task) (struct rq *rq);
bool (*yield_to_task) (struct rq *rq, struct task_struct *p, bool preempt);
// 用于检查当前进程是否可以被新的进程抢占
void (*check_preempt_curr) (struct rq *rq, struct task_struct *p, int flags);
/*
* It is the responsibility of the pick_next_task() method that will
* return the next task to call put_prev_task() on the @prev task or
* something equivalent.
*
* May return RETRY_TASK when it finds a higher prio class has runnable
* tasks.
*/
// 选择下一个应该要运行的进程
struct task_struct * (*pick_next_task) (struct rq *rq,
struct task_struct *prev);
// 将进程放回到运行队列当中
void (*put_prev_task) (struct rq *rq, struct task_struct *p);
#ifdef CONFIG_SMP
// 为进程选择一个合适的CPU
int (*select_task_rq)(struct task_struct *p, int task_cpu, int sd_flag, int flags);
// 迁移任务到另一个CPU
void (*migrate_task_rq)(struct task_struct *p);
// 专门用户唤醒进程
void (*task_waking) (struct task_struct *task);
void (*task_woken) (struct rq *this_rq, struct task_struct *task);
// 修改进程在CPU的亲和力
void (*set_cpus_allowed)(struct task_struct *p,
const struct cpumask *newmask);
// 启动运行队列
void (*rq_online)(struct rq *rq);
// 禁止运行队列
void (*rq_offline)(struct rq *rq);
#endif
// 当进程改变它的调度类或进程组时被调用
void (*set_curr_task) (struct rq *rq);
// 调用自己time_tick函数,可能引起进程切换,将驱动运行时抢占
void (*task_tick) (struct rq *rq, struct task_struct *p, int queued);
// 当进程创建时候调用,不同调度策略的进程初始化不一样
void (*task_fork) (struct task_struct *p);
// 进程退出时会使用
void (*task_dead) (struct task_struct *p);
/*
* The switched_from() call is allowed to drop rq->lock, therefore we
* cannot assume the switched_from/switched_to pair is serliazed by
* rq->lock. They are however serialized by p->pi_lock.
*/
// 专门用于进程切换操作
void (*switched_from) (struct rq *this_rq, struct task_struct *task);
void (*switched_to) (struct rq *this_rq, struct task_struct *task);
// 更改进程优先级
void (*prio_changed) (struct rq *this_rq, struct task_struct *task,
int oldprio);
unsigned int (*get_rr_interval) (struct rq *rq,
struct task_struct *task);
void (*update_curr) (struct rq *rq);
#ifdef CONFIG_FAIR_GROUP_SCHED
void (*task_move_group) (struct task_struct *p);
#endif
};
```struct sched_class {
// 系统当中有多个调度类,按照调度优先级排成一个链表,下一个优先级调度类
const struct sched_class *next;
// 江金城加入到执行队列当中,即将调度实体(进程)存放到红黑树中,并对nr_running变量自动加1
void (*enqueue_task) (struct rq *rq, struct task_struct *p, int flags);
// 从执行队列当中删除进程,并对nr_running变量自动减1
void (*dequeue_task) (struct rq *rq, struct task_struct *p, int flags);
// 放弃CPU执行权,实际上该函数执行先出队后入队,在这种情况下,它直接将调度实体放在红黑树的最右端
void (*yield_task) (struct rq *rq);
bool (*yield_to_task) (struct rq *rq, struct task_struct *p, bool preempt);
// 用于检查当前进程是否可以被新的进程抢占
void (*check_preempt_curr) (struct rq *rq, struct task_struct *p, int flags);
/*
* It is the responsibility of the pick_next_task() method that will
* return the next task to call put_prev_task() on the @prev task or
* something equivalent.
*
* May return RETRY_TASK when it finds a higher prio class has runnable
* tasks.
*/
// 选择下一个应该要运行的进程
struct task_struct * (*pick_next_task) (struct rq *rq,
struct task_struct *prev);
// 将进程放回到运行队列当中
void (*put_prev_task) (struct rq *rq, struct task_struct *p);
#ifdef CONFIG_SMP
// 为进程选择一个合适的CPU
int (*select_task_rq)(struct task_struct *p, int task_cpu, int sd_flag, int flags);
// 迁移任务到另一个CPU
void (*migrate_task_rq)(struct task_struct *p);
// 专门用户唤醒进程
void (*task_waking) (struct task_struct *task);
void (*task_woken) (struct rq *this_rq, struct task_struct *task);
// 修改进程在CPU的亲和力
void (*set_cpus_allowed)(struct task_struct *p,
const struct cpumask *newmask);
// 启动运行队列
void (*rq_online)(struct rq *rq);
// 禁止运行队列
void (*rq_offline)(struct rq *rq);
#endif
// 当进程改变它的调度类或进程组时被调用
void (*set_curr_task) (struct rq *rq);
// 调用自己time_tick函数,可能引起进程切换,将驱动运行时抢占
void (*task_tick) (struct rq *rq, struct task_struct *p, int queued);
// 当进程创建时候调用,不同调度策略的进程初始化不一样
void (*task_fork) (struct task_struct *p);
// 进程退出时会使用
void (*task_dead) (struct task_struct *p);
/*
* The switched_from() call is allowed to drop rq->lock, therefore we
* cannot assume the switched_from/switched_to pair is serliazed by
* rq->lock. They are however serialized by p->pi_lock.
*/
// 专门用于进程切换操作
void (*switched_from) (struct rq *this_rq, struct task_struct *task);
void (*switched_to) (struct rq *this_rq, struct task_struct *task);
// 更改进程优先级
void (*prio_changed) (struct rq *this_rq, struct task_struct *task,
int oldprio);
unsigned int (*get_rr_interval) (struct rq *rq,
struct task_struct *task);
void (*update_curr) (struct rq *rq);
#ifdef CONFIG_FAIR_GROUP_SCHED
void (*task_move_group) (struct task_struct *p);
#endif
};
Linux调度类
dl_sched_class、rt_sched_class、fair_sched_class及idle_sched_class等。每个进程都有对应一种调度策略,每一种调度策略又对应一种调度类(每一个调度类可以对应多种调度策略)。
extern const struct sched_class stop_sched_class;
extern const struct sched_class dl_sched_class;
extern const struct sched_class rt_sched_class;
extern const struct sched_class fair_sched_class;
extern const struct sched_class idle_sched_class;
rt_sched_class类 实时调度器(调度策略:SCHED_FIFO SCHED_RR)
fair_sched_class类 完全公平调度器(调度策略:SCHED_NORMAL、SCHED_BATCH)
SCHED_FIFO调度策略的实时进程永远比SCHED_NORMAL调度策略的普通进程优先运行。eg:pick_next_task函数。
调度类优先级顺序:stop_sched_class > dl_sched_class > rt_sched_class > fair_sched_class > idle_sched_class.
stop_sched_class:优先级最高的线程,会中断所有其他线程,并且不会被其他任务打断。
dl_sched_class
rt_sched_class:作用于实时线程。
fair_sched_class: 公平调度器CFS,作用: 一般常用线程。
idle_sched_class: 每个CPU的第一个PID=0线程,swapper,是一个静态线程。每个调度类属于idle_sched_class。一般运行在开机过程和CPU异常时会做dump。
SCHED_NORMAL,SCHED_BATCH,SCHED_IDLE直接被映射到fair_sched_class;
SCHED_RR,SCHED_FIFO与rt_sched_class相关联。
* Simple, special scheduling class for the per-CPU stop tasks:
*/
const struct sched_class stop_sched_class = {
.next = &dl_sched_class,
.enqueue_task = enqueue_task_stop,
.dequeue_task = dequeue_task_stop,
.yield_task = yield_task_stop,
.check_preempt_curr = check_preempt_curr_stop,
.pick_next_task = pick_next_task_stop,
.put_prev_task = put_prev_task_stop,
#ifdef CONFIG_SMP
.select_task_rq = select_task_rq_stop,
.set_cpus_allowed = set_cpus_allowed_common,
#endif
.set_curr_task = set_curr_task_stop,
.task_tick = task_tick_stop,
.get_rr_interval = get_rr_interval_stop,
.prio_changed = prio_changed_stop,
.switched_to = switched_to_stop,
.update_curr = update_curr_stop,
};
Linux调度核心选择下一个合适的task运行时,会按照优先级顺序遍历调度类的pick_next_task函数。
优先级
- task_struct结构体中采用三个成员表示进程的优先级:prio和normal_prio表示动态优先级, static_prio表示进程的静态优先级。
- 内核将任务优先级划分,实时优先级范围是0到MAX_RT_PRIO-1(即99),而普通进 程的静态优先级范围是从MAX_RT_PRIO到MAX_PRIO-1(即100到139)。数字越小优先级越高。
/*
* Priority of a process goes from 0..MAX_PRIO-1, valid RT
* priority is 0..MAX_RT_PRIO-1, and SCHED_NORMAL/SCHED_BATCH
* tasks are in the range MAX_RT_PRIO..MAX_PRIO-1. Priority
* values are inverted: lower p->prio value means higher priority.
*
* The MAX_USER_RT_PRIO value allows the actual maximum
* RT priority to be separate from the value exported to
* user-space. This allows kernel threads to set their
* priority to a value higher than any user task. Note:
* MAX_RT_PRIO must not be smaller than MAX_USER_RT_PRIO.
*/
#define MAX_USER_RT_PRIO 100
#define MAX_RT_PRIO MAX_USER_RT_PRIO
#define MAX_PRIO (MAX_RT_PRIO + NICE_WIDTH)
#define DEFAULT_PRIO (MAX_RT_PRIO + NICE_WIDTH / 2)
- 进程分类
实时进程(Real-Time Process):优先级高、需要立即被执行的进程。
普通进程(Normal Process):优先级低、更长执行时间的进程。
调度策略
unsigned int policy:保存进程的调度策略(5种)
- SCHED_NORMAL:用于普通进程,通过CFS调度器实现。
- SCHED_BATCH: 相当于SCHED_NORMAL分化版本,采用分时策略,根据动态优先级,分配CPU运行需要资源。用于非交互处理器消耗型进程。
- SCHED_IDLE:优先级最低,在系统空闲时才执行这类进程。系统负载很低时使用CFS。
- SCHED_FIFO:先进先出调度算法(实时调度策略),相同优先级任务先到先服务,高优先级任务可以抢占低优先级任务。
- SCHED_RR:轮流调度算法(实时调度策略)。
- SCHED_DEADLINE:新支持实时进程调度策略,针对突发性计算。
/*
* Scheduling policies
*/
#define SCHED_NORMAL 0
#define SCHED_FIFO 1
#define SCHED_RR 2
#define SCHED_BATCH 3
/* SCHED_ISO: reserved but not implemented yet */
#define SCHED_IDLE 5
#define SCHED_DEADLINE 6
完全公平调度算法(时间片轮询调度算法)
实现完全公平调度算法,要为进程定义两个时间:
- 实际运行时间
实际运行时间=调度周期进程权重/所有进程权重之和。
调度周期:指所有进程运行一遍所需要的时间。
进程权重:根据进程的重要性,分配给每个进程不同的权重。
2.虚拟运行时间
虚拟运行时间=实际运行时间1024/进程权重=(调度周期进程权重/所有进程权重之和) 1024/进程权重=调度周期*1024/所有进程总权重。
一个调度周期里,所有进程的虚拟运行时间相同。
- 基本原理
CFS定义一种新调度模型,它给cfs_rq(cfs的run queue)中的每一个进程都设置一个虚 拟时钟-virtual runtime(vruntime)。如果一个进程得以执行,随着执行时间的不断增长,其 vruntime也将不断增大,没有得到执行的进程vruntime将保持不变。
调度器结构分析
任务:合理分配CPU时间给运行进程。
目标:有效分配CPU是时间片。
主调度器:通过schedule()函数来完成进程的选择和切换。
周期调度器:根据频率自动调用scheduler_tick函数,作用:根据进程运行时间触发调度。
上下文切换:主要做两件事:切换地址空间;切换寄存器和栈空间。
CFS就绪队列
调度管理是各个调度器的职责。CFS的顶级调度就队列struct cfs_rq。
/* CFS-related fields in a runqueue */
// CFS调度运行队列,每个CPU的rq都会包含一个cfs_rq,每个组调度的sched_entity也会有一个cfs_rq队列
struct cfs_rq {
// CFS运行队列中所有进程总负载
struct load_weight load;
// nr_running::cfs_rq中调度实体数量
// h_nr_running 只对进程有效
unsigned int nr_running, h_nr_running;
u64 exec_clock;
//跟踪记录队列所有进程最小虚拟运行时间
u64 min_vruntime;
#ifndef CONFIG_64BIT
u64 min_vruntime_copy;
#endif
// 红黑树的root 用于在按时间排序的红黑树中管理所有进程
struct rb_root tasks_timeline;
// 下一个调度结点(红黑树最左边结点就是下个调度实体)
struct rb_node *rb_leftmost;
/*
* 'curr' points to currently running entity on this cfs_rq.
* It is set to NULL otherwise (i.e when none are currently running).
*/
struct sched_entity *curr, *next, *last, *skip;
#ifdef CONFIG_SCHED_DEBUG
unsigned int nr_spread_over;
#endif
#ifdef CONFIG_SMP
/*
* CFS load tracking
*/
struct sched_avg avg;
u64 runnable_load_sum;
unsigned long runnable_load_avg;
#ifdef CONFIG_FAIR_GROUP_SCHED
unsigned long tg_load_avg_contrib;
#endif
atomic_long_t removed_load_avg, removed_util_avg;
#ifndef CONFIG_64BIT
u64 load_last_update_time_copy;
#endif
#ifdef CONFIG_FAIR_GROUP_SCHED
/*
* h_load = weight * f(tg)
*
* Where f(tg) is the recursive weight fraction assigned to
* this group.
*/
unsigned long h_load;
u64 last_h_load_update;
struct sched_entity *h_load_next;
#endif /* CONFIG_FAIR_GROUP_SCHED */
#endif /* CONFIG_SMP */
#ifdef CONFIG_FAIR_GROUP_SCHED
struct rq *rq; /* cpu runqueue to which this cfs_rq is attached */
/*
* leaf cfs_rqs are those that hold tasks (lowest schedulable entity in
* a hierarchy). Non-leaf lrqs hold other higher schedulable entities
* (like users, containers etc.)
*
* leaf_cfs_rq_list ties together list of leaf cfs_rq's in a cpu. This
* list is used during load balance.
*/
int on_list;
struct list_head leaf_cfs_rq_list;
struct task_group *tg; /* group that "owns" this runqueue */
#ifdef CONFIG_CFS_BANDWIDTH
int runtime_enabled;
u64 runtime_expires;
s64 runtime_remaining;
u64 throttled_clock, throttled_clock_task;
u64 throttled_clock_task_time;
int throttled, throttle_count;
struct list_head throttled_list;
#endif /* CONFIG_CFS_BANDWIDTH */
#endif /* CONFIG_FAIR_GROUP_SCHED */
};
总结
本文主要介绍了调度器分析:功能,调度类sched_class结构体与调度类;Linux调度类(5种)及其优先级,调度策略(5种);完全公平调度算法,包括实际运行时间、虚拟运行时间,调度器结构分析,CFS就绪队列等内容。
技术参考
https://ke.qq.com/webcourse/3294666/103425320#taid=11011145099003338&vid=5285890815025410324