python基础16-并发编程（1）

从这篇开始我们学习python并发编程的内容，之所以把并发编程放到最后去说，是因为并发编程涉及很多概念，还用到了类，跟之前的基础知识不同，不是几句话或者几行代码就能说清楚的，在我们正式写代码前我们先梳理下基本概念，然后再进入实际代码环节，因为要NB，不但要会写代码，而且还能理解代码背后的意义，if 赞同: 我们先来了解下进程和线程的历史：

我们都知道计算机是由硬件和软件组成的。硬件中的CPU是计算机的核心，它承担计算机的所有任务。操作系统是运行在硬件之上的软件，是计算机的管理者，它负责资源的管理和分配、任务的调度。程序是运行在系统上的具有某种功能的软件，比如说浏览器，音乐播放器等。每次执行程序的时候，都会完成一定的功能，比如说浏览器帮我们打开网页，为了保证其独立性，就需要一个专门的管理和控制执行程序的数据结构——进程控制块。 进程就是一个程序在一个数据集上的一次动态执行过程。 进程一般由程序、数据集、进程控制块三部分组成。我们编写的程序用来描述进程要完成哪些功能以及如何完成；数据集则是程序在执行过程中所需要使用的资源；进程控制块用来记录进程的外部特征，描述进程的执行变化过程，系统可以利用它来控制和管理进程，它是系统感知进程存在的唯一标志。

在早期的操作系统里，计算机只有一个核心，进程执行程序的最小单位，任务调度采用时间片轮转的抢占式方式进行进程调度。每个进程都有各自的一块独立的内存，保证进程彼此间的内存地址空间的隔离。随着计算机技术的发展，进程出现了很多弊端，一是进程的创建、撤销和切换的开销比较大，二是由于对称多处理机（对称多处理机（SymmetricalMulti-Processing）又叫SMP，是指在一个计算机上汇集了一组处理器(多CPU)，各CPU之间共享内存子系统以及总线结构）的出现，可以满足多个运行单位，而多进程并行开销过大。这个时候就引入了线程的概念。线程也叫轻量级进程，它是一个基本的CPU执行单元，也是程序执行过程中的最小单元，由线程ID、程序计数器、寄存器集合和堆栈共同组成。线程的引入减小了程序并发执行时的开销，提高了操作系统的并发性能。线程没有自己的系统资源，只拥有在运行时必不可少的资源。但线程可以与同属与同一进程的其他线程共享进程所拥有的其他资源。

以上这段来自互联网，关于进程和线程说的比较清晰，所以为了让大家更好的了解，我这边直接引用了，在了解了进程和线程后，我们再来看Python中的并发实现，不用想，Python中一定有这种类似模块，没错，这个模块就是threading，不过学习Python的人都知道，在python中有这么一个玩意儿，叫GIL，中文名叫全局解释器锁，这个锁能保证同一个时刻只有一个线程在运行，这个就保证了在python内部是线程安全的，解决了线程间数据一致性和状态同步的困难，但问题来了，这问题就是你即使编写的多线程代码，运行时其实还是在单线程执行，没法实现真正的多线程，看到这些是不是心里哇凉哇凉的，不过这些大家也不必过多担心，这里说的情况是CPU密集型的情况，如果是IO密集型的情况下是允许其它线程在这个线程等待I/O的时候运行的，所以结论是，Python的多线程在多核CPU上，IO密集型的程序能更适合利用多线程。

写到这，理论部分就完了，接下来进入我们代码实战阶段，我们从一个实际的运维工作例子中来，比如你们公司有100个站点需要维护（理论上可以测试更多数据，但为了更快演示我只选了100个），你需要定时检测这些站点是否可以正常访问，我们以此需求背景来完成这个代码例子，首先我们用常规方法编写代码，然后在用threading模块实现并发，然后对比看效果，代码如下：

#!/usr/bin/evn python

import requests
import time

def get_site_code(url):
    r = requests.get(url)
    status = r.status_code
    line = url +  ' ' + str(status)
    with open('/tmp/site_stauts.txt', 'a+') as f:
        f.writelines(line + '\n')
        

if __name__ == '__main__':
    print 'starting at:', time.ctime()
    for url in open('urls.txt'):
        url = url.strip()
        get_site_code(url)
    print 'Done at:', time.ctime()

#!/usr/bin/evn python

import requests

import time

def get_site_code(url):

r = requests.get(url)

status = r.status_code

line = url + ' ' + str(status)

with open('/tmp/site_stauts.txt', 'a+') as f:

f.writelines(line + '\n')

if __name__ == '__main__':

print 'starting at:', time.ctime()

for url in open('urls.txt'):

url = url.strip()

get_site_code(url)

print 'Done at:', time.ctime()

判断一个站点是否正常，最常用的方法就是获得这个站点的http状态码，在这里我简化了需求，只把获得的状态码写入到了文件中，如果要做监控可以读取这个文件，如果不是2xx或3xx的，就可以报警了，我们把要检查的站点写入urls.txt文件中，通过for循环，调用get_site_code()函数将获得的站点状态码写入site_stauts.txt文件中，加入time模块主要就是对比先后运行时间，运行结果：

starting at: Sun Oct 22 19:32:23 2017
Done     at: Sun Oct 22 19:32:40 2017

1 2	starting at: Sun Oct 22 19:32:23 2017 Done at: Sun Oct 22 19:32:40 2017

执行完成一共花了17秒时间，接下来我们采用并发方式修改下这个执行代码，如下：

#!/usr/bin/evn python

import requests
import time
import threading

def get_site_code(url):
    r = requests.get(url)
    status = r.status_code
    line = url +  ' ' + str(status)
    with open('/tmp/site_stauts.txt', 'a+') as f:
        f.writelines(line + '\n')

if __name__ == '__main__':
    print 'starting at:', time.ctime()
    threads = []
    for url in open('urls.txt'):
        url = url.strip()
        t = threading.Thread(target=get_site_code, args=(url,))
        threads.append(t)

    #print len(threads)

    for i in range(len(threads)):
        threads[i].start()

    for i in range(len(threads)):
        threads[i].join()

    print 'Done at:', time.ctime()

#!/usr/bin/evn python

import requests

import time

import threading

def get_site_code(url):

r = requests.get(url)

status = r.status_code

line = url + ' ' + str(status)

with open('/tmp/site_stauts.txt', 'a+') as f:

f.writelines(line + '\n')

if __name__ == '__main__':

print 'starting at:', time.ctime()

threads = []

for url in open('urls.txt'):

url = url.strip()

t = threading.Thread(target=get_site_code, args=(url,))

threads.append(t)

#print len(threads)

for i in range(len(threads)):

threads[i].start()

for i in range(len(threads)):

threads[i].join()

print 'Done at:', time.ctime()

运行结果如下：

starting at: Sun Oct 22 19:36:49 2017
Done     at: Sun Oct 22 19:36:51 2017

1 2	starting at: Sun Oct 22 19:36:49 2017 Done at: Sun Oct 22 19:36:51 2017

我们看只用了2秒，快了8倍，看完结果接下来我们说下代码，在这例子里我选择了我个人认为最简单的方法，就是在实例化每个Thread对象的时候传入了我们定义的函数get_site_code()和需要的参数url，实例化后得到一个Thread的实例t，我们把这个t加入线程列表threads中，接下来循环这个列表开始调用start()函数去执行，除了start()函数，我们还用到了join()函数，这个函数允许主线程等待线程结束.

上面的方法没问题后，我们来看第二个实现方法，我们还可以通过继承父类 threading.Thread，来实现一个子类，通过实例化我们自己的子类来实现并发，这里我们需要注意的是run方法是父类的一个方法，我们在子类中重新了父类的run方法，代码实现如下：

#!/usr/bin/evn python

import requests
import time
import threading


def get_site_code(url):
    r = requests.get(url)
    status = r.status_code
    line = url +  ' ' + str(status)
    with open('/tmp/site_stauts.txt', 'a+') as f:
        f.writelines(line + '\n')


class Work(threading.Thread):
    def __init__(self, url):
        #threading.Thread.__init__(self)
        super(Work, self).__init__()
        self.url = url

    def run(self):
        get_site_code(self.url)    


if __name__ == '__main__':
    print 'starting at:', time.ctime()

    threads = []

    for url in open('urls.txt'):
        url = url.strip()
        threads.append(Work(url))

    #print len(threads)

    for i in threads:
        i.start()

    for i in threads:
        i.join()

    print 'Done at:', time.ctime()

#!/usr/bin/evn python

import requests

import time

import threading

def get_site_code(url):

r = requests.get(url)

status = r.status_code

line = url + ' ' + str(status)

with open('/tmp/site_stauts.txt', 'a+') as f:

f.writelines(line + '\n')

class Work(threading.Thread):

def __init__(self, url):

#threading.Thread.__init__(self)

super(Work, self).__init__()

self.url = url

def run(self):

get_site_code(self.url)

if __name__ == '__main__':

print 'starting at:', time.ctime()

threads = []

for url in open('urls.txt'):

url = url.strip()

threads.append(Work(url))

#print len(threads)

for i in threads:

i.start()

for i in threads:

i.join()

print 'Done at:', time.ctime()

这个脚本跟上面运行效果是一样的，但是通过继承父类的方式来实现的，关于类的继承上篇我们已经讲过了，在代码里我注释了一行，保留了子类继承父类的二种方式的写法，写到这，可能有的小伙伴要问，为什么要有这种方式实现呢？这是因为类对比函数来说可以实现更多更灵活的应用场景，比单纯的函数要强大，所以有时候必须要用这种方式去实现。

这篇就到这里，在最后，我们回到前面我讲的GIL的问题，如果有的时候就需要用Python来实现利用多核CPU的情况怎么办，办法是有的，就是采用多进程方式，不过这就用到了multiprocessing模块，关于这个模块我们下篇再继续，另外码字不易，感觉不错的小伙伴请点右上角帮忙转发，多谢。

M	T	W	T	F	S	S
« Jul
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

头脑的思考

头脑的思考

python基础16-并发编程（1）