进程管理 进程 程序是指储存在外部存储(如硬盘)的一个可执行文件, 而进程是指处于执行期间的程序, 进程包括 代码段(text section) 和 数据段(data section), 除了代码段和数据段外, 进程一般还包含打开的文件, 要处理的信号和CPU上下文等等. 
进程描述符 Linux进程使用 struct task_struct 来描述(include/linux/sched.h), 如下:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 struct  task_struct  { 	 	volatile  long  state;	 	unsigned  long  flags;	 	int  sigpending; 	mm_segment_t  addr_limit;	 	struct  exec_domain  *exec_domain ; 	volatile  long  need_resched; 	unsigned  long  ptrace; 	int  lock_depth;		 	long  counter; 	long  nice; 	unsigned  long  policy; 	struct  mm_struct  *mm ; 	int  processor; 	... }
 
Linux把所有的进程使用双向链表连接起来, 如下图(来源<Linux设计与实现>):
Linux内核为了加快获取当前进程的的task_struct结构, 使用了一个技巧, 就是把task_struct放置在内核栈的栈底, 这样就可以通过 esp寄存器 快速获取到当前运行进程的task_struct结构. 如下图:
获取当前运行进程的task_struct代码如下:
static  inline  struct task_struct * get_current (void )  { 	struct  task_struct  *current ; 	__asm__("andl %%esp,%0; " :"=r"  (current) : "0"  (~8191U L)); 	return  current;  }
 
进程状态 进程描述符的state字段用于保存进程的当前状态, 进程的状态有以下几种:
TASK_RUNNING (运行) – 进程处于可执行状态, 在这个状态下的进程要么正在被CPU执行, 要么在等待执行(CPU被其他进程占用的情况下). 
TASK_INTERRUPTIBLE (可中断等待) – 进程处于等待状态, 其在等待某些条件成立或者接收到某些信号, 进程会被唤醒变为运行状态. 
TASK_UNINTERRUPTIBLE (不可中断等待) – 进程处于等待状态, 其在等待某些条件成立, 进程会被唤醒变为运行状态, 但不能被信号唤醒. 
TASK_TRACED (被追踪) – 进程处于被追踪状态, 例如通过ptrace命令对进程进行调试. 
TASK_STOPPED (停止) – 进程处于停止状态, 进程不能被执行. 一般接收到SIGSTOP, SIGTSTP, SIGTTIN, SIGTTOU信号进程会变成TASK_STOPPED状态. 
 
各种状态间的转换如下图:
进程的创建 在Linux系统中,进程的创建使用fork()系统调用,fork()调用会创建一个与父进程一样的子进程,唯一不同就是fork()的返回值,父进程返回的是子进程的进程ID,而子进程返回的是0。
Linux创建子进程时使用了写时复制(Copy On Write),也就是创建子进程时使用的是父进程的内存空间,当子进程或者父进程修改数据时才会复制相应的内存页。
当调用fork()系统调用时会陷入内核空间并且调用sys_fork()函数,sys_fork()函数会调用do_fork()函数,代码如下(arch/i386/kernel/process.c):
asmlinkage int  sys_fork (struct pt_regs regs)   { 	return  do_fork(SIGCHLD, regs.esp, ®s, 0 ); }
 
do_fork()主要的工作是申请一个进程描述符, 然后初始化进程描述符的各个字段,  包括调用 copy_files() 函数复制打开的文件,  调用 copy_sighand() 函数复制信号处理函数, 调用 copy_mm() 函数复制进程虚拟内存空间, 调用 copy_namespace() 函数复制命名空间. 代码如下:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 int  do_fork (unsigned  long  clone_flags, unsigned  long  stack_start, 	    struct pt_regs *regs, unsigned  long  stack_size)  { 	... 	p = alloc_task_struct();  	... 	if  (copy_files(clone_flags, p)) 		goto  bad_fork_cleanup; 	if  (copy_fs(clone_flags, p)) 		goto  bad_fork_cleanup_files; 	if  (copy_sighand(clone_flags, p)) 		goto  bad_fork_cleanup_fs; 	if  (copy_mm(clone_flags, p)) 		goto  bad_fork_cleanup_sighand; 	if  (copy_namespace(clone_flags, p)) 		goto  bad_fork_cleanup_mm; 	retval = copy_thread(0 , clone_flags, stack_start, stack_size, p, regs); 	... 	wake_up_process(p); 	... }
 
值得注意的是do_fork() 还调用了 copy_thread() 这个函数, copy_thread()这个函数主要用于设置进程的CPU执行上下文 struct thread_struct 结构.  代码如下:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 int  copy_thread (int  nr, unsigned  long  clone_flags, unsigned  long  esp, 	unsigned  long  unused, 	struct task_struct * p, struct pt_regs * regs)  { 	struct  pt_regs  * childregs ; 	 	childregs = ((struct pt_regs *) (THREAD_SIZE + (unsigned  long ) p)) - 1 ; 	struct_cpy(childregs, regs);   	childregs->eax = 0 ;    	childregs->esp = esp;  	p->thread.esp = (unsigned  long ) childregs;       	p->thread.esp0 = (unsigned  long ) (childregs+1 );  	p->thread.eip = (unsigned  long ) ret_from_fork;   	savesegment(fs,p->thread.fs); 	savesegment(gs,p->thread.gs); 	unlazy_fpu(current); 	struct_cpy(&p->thread.i387, ¤t->thread.i387); 	return  0 ; }
 
do_fork() 函数最后调用 wake_up_process() 函数唤醒子进程, 让子进程进入运行状态.
内核线程 Linux内核有很多任务需要去做, 例如定时把缓冲中的数据刷到硬盘, 当内存不足的时候进行内存的回收等, 这些工作都需要通过内核线程来完成. 内核线程与普通进程的主要区别就是: 内核线程没有自己的 虚拟空间结构(struct mm), 每次内核线程执行的时候都是借助当前运行进程的虚拟内存空间结构来运行, 因为内核线程只会运行在内核态, 而每个进程的内核态空间都是一样的, 所以借助其他进程的虚拟内存空间结构来运行是完成可行的.
内核线程使用 kernel_thread() 函数来创建, 代码如下:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 int  kernel_thread (int  (*fn)(void  *), void  * arg, unsigned  long  flags)  { 	long  retval, d0; 	__asm__ __volatile__( 		"movl %%esp,%%esi\n\t"  		"int $0x80\n\t" 		 		"cmpl %%esp,%%esi\n\t" 	 		"je 1f\n\t" 		 		 		"movl %4,%%eax\n\t"  		"pushl %%eax\n\t" 		 		"call *%5\n\t" 		 		"movl %3,%0\n\t" 	 		"int $0x80\n"  		"1:\t"  		:"=&a"  (retval), "=&S"  (d0) 		:"0"  (__NR_clone), "i"  (__NR_exit), 		 "r"  (arg), "r"  (fn), 		 "b"  (flags | CLONE_VM) 		: "memory" ); 	return  retval; }
 
因为这个函数式使用嵌入汇编来实现的, 所以有点难懂, 不过主要过程就是通过调用 _clone()函数来创建一个新的进程, 而创建进程是通过传入 CLONE_VM 标志来指定进程借用其他进程的虚拟内存空间结构.
特别说明一下:`d0` 局部变量的作用是为了在创建内核线程时保证 `struct pt_regs` 结构的完整,
这是因为创建内核线程是在内核态进行的,所以在内核态调用系统调用是不会压入 `ss` 和 `esp` 寄存器的,
这样就会导致系统调用的 `struct pt_regs` 参数信息不完整,
所以 `kernel_thread()` 函数定义了一个 `d0` 局部变量是为了补充没压栈的 `ss` 和 `esp` 的。