Python的线程和进程-python应用一般最多支持多少个线程

发表: 2016-07-11 浏览: 2621

Python

今天在社区里面有朋友提问Python的应用一般最多支持多少个线程，原问题地址为：https://ask.hellobi.com/question/20157，个人觉得这个问题提的非常好，在这里总结整理一下，同时欢迎大家一起来讨论，相互学习。

在Python的学习过程中，一提到线程和进程，一般都会涉及到一个概念：“GIL”，在Python的原始解释器CPython中存在着GIL（Global Interpreter Lock，全局解释器锁），因此在解释执行python代码时，会产生互斥锁来限制线程对共享资源的访问，直到解释器遇到I/O操作或者操作次数达到一定数目时才会释放GIL。所以，虽然CPython的线程库直接封装了系统的原生线程，但CPython整体作为一个进程，同一时间只会有一个获得GIL的线程在跑，其他线程则处于等待状态。这就造成了即使在多核CPU中，多线程也只是做着分时切换而已。

简单地说就是作为可能是仅有的支持多线程的解释型语言，Python的多线程是有compromise的，在任意时间只有一个Python解释器在解释Python bytecode。

如果我们的代码是CPU密集型，那么在GIL的作用下，多个线程的代码很有可能是线性执行的。所以这种情况下多线程是鸡肋，效率可能还不如单线程因为有context switch

如果我们的代码是IO密集型，在这种情况下，多线程可以明显提高效率。比如爬虫，绝大多数时间爬虫是在等待socket返回数据。这个时候C代码里是有release GIL的，最终结果是某个线程等待IO的时候其他线程可以继续执行。

通过上面我们可以知道：原则上我们就不应该用Python写CPU密集型的代码，因为效率确实会比较低，但如果确实需要在CPU密集型的代码里用concurrent，就去用multiprocessing库。这个库是基于multi process实现了类multi thread的API接口，并且用pickle部分地实现了变量共享。

也会你可能会问，我怎么知道我的代码到底算CPU密集型还是IO密集型，教你个方法：

multiprocessing这个module有一个dummy的sub module，它是基于multithread实现了multiprocessing的API。

假设你使用的是multiprocessing的Pool，是使用多进程实现了concurrency