作者:Ilan Reinstein
来源:KDnuggets
参与:Cynthia、大伟、周剑
翻译:本文为天善智能编译,未经容许,禁止转载。
想要深入了解机器学习与AI 并非易事。许多满怀抱负的专业人士和爱好者们发现,尽管拥有海量的资源,要在该领域建立正确的路径仍十分困难。这个行业日新月异的发展速度使得跟紧它的发展步伐成为决定性的指标,而保持最新信息和更新的方法,是为社群中专业人士日常使用的众多开源计划和工具作出贡献。
KDnuggets 在2016年数据的基础上进行了更新,并给出了新的趋势分析。
https://www.kdnuggets.com/2016/11/top-20-python-machine-learning-open-source-updated.html
TensorFlow由于其升贡献者人数的三位数增长而攀升至排名第一位。Scikit-learn 屈居第二,但仍有强大的贡献者基础。
相较于2016年,参与者数提升最多的项目为:
1. TensorFlow 增长169% , 贡献者人数由 493 增至1324 名
2. Deap 增长86% , 贡献者人数由 21 增至39 名
3. Chainer 增长83% , 贡献者人数由 84 增至154 名
4. Gensim 增长81% , 贡献者人数由 145 增至262名
5. Neon 增长66% , 贡献者人数由 47 增至78 名
6. Nilearn 增长50% , 贡献者人数由 46 增至69名
此外2018年新加入的项目有:
1. Keras 贡献者629名
2. PyTorch 贡献者399名
图片:Github排名前二十的Python AI 与机器学习项目
其中图标的大小对应贡献者群体大小,颜色对应贡献者人数的变化:红色为增、蓝色为减;雪花符号*代表深度学习项目,圆圈为其他
可以看到诸如Tensor Flow,Theano 和Caffe 等深度学习项目是现今最为流行的深度学习系统之一。
以下为详细排名:
1. TensorFlow: 是最初由来自Google机器智能研究机构的Google Brain Team的研究人员与工程师们研发的开源人工智能系统。其设计是为了用于帮助机器学习的研究,并快速,便捷地将研究原型转换为生产系统。
贡献者:1324 (提升168%), 提交数: 28476
Github URL:https://github.com/tensorflow/tensorflow
2. Scikit-learn:是一个简单高效的数据挖掘与数据分析工具,所有人均可访问,并可在各类环境中重复利用,基于NumPy, SciPy 和matplotlib,开源,商业用途 – BSD 许可。
贡献者:1019(提升39%), 提交数: 22575
Github URL:http://github.com/scikit-learn/scikit-learn
3. Keras:一种高级神经网络API,用Python编写并能在TensorFlow, CNTK或Theano上运行。
贡献者:629(新加入排名), 提交数: 4371
Github URL:https://github.com/keras-team/keras
4. PyTorch:Python中的张量和动态神经网络,拥有强大的GPU加速。
贡献者:399(新加入排名), 提交数: 6458
Github URL:https://github.com/pytorch/pytorch
5. Theano:使你能够高效地定义、优化和评估涉及多维数组的数学表达式。
贡献者:327(提升24%),提交数:27931
Github URL:https://github.com/Theano/Theano
6. Gensim:是一个免费的Python库,具有如可扩展的统计语义,分析用于语义结构的纯文本文档,检索相似语义的文档等功能。
贡献者:262(提升81%),提交数:3549
Github URL:https://github.com/RaRe-Technologies/gensim
7. Caffe:是一个深度学习框架,其构成为表达,速度及模块化的思想。 它由伯克利视觉与学习中心(BVLC)和社区贡献者共同开发。
贡献者: 260(提升21%),提交数:4099
Github URL:https://github.com/BVLC/caffe
8. Chainer:是一个基于Python的独立开源框架,用于深度学习模型。Chainer 提供灵活、直观与高性能的手段以全面实施深度学习模型,包括当前技术发展最新水平的模型如:递归神经网络和变分自动编码器。
贡献者: 154(提升84%),提交数:12613
Github URL:https://github.com/pfnet/chainer
9. Statsmodels:是一个允许用户探索数据,预估统计模型和实行统计测试的Python模块。描述统计、统计测、绘图功能和结果统计的广泛列表适用于不同类型的数据和任一估算器。
贡献者: 144(提升33%),提交数:9729
Github URL:https://github.com/statsmodels/statsmodels/
10. Shogun:是一个机器学习工具箱,提供广泛、统一、高效的机器学习方法。这个工具允许多个数据表示、算法类和通用工具的无缝结合。
贡献者: 139(提升32%),提交数:16362
Github URL:https://github.com/shogun-toolbox/shogun
11. Pylearn2: 是一个机器学习库,其大部分功能建立于Theano 的基础上。这意味着你可以使用数学表达式编写Pylearn2 插件(新模型,算法等)。Theano将会为你优化和稳定这些表达式,并将它们编译为你所选择的后端(CPU或GPU)。
贡献者: 119(提升3.5%),提交数:7119
Github URL:http://github.com/lisa-lab/pylearn2
12. NuPIC:是一个基于称为分层时间存储器(HTM)的新大脑皮层理论的开源项目。部分HTM理论已经在应用中实施、测试和使用,而HTM理论的其他部分仍在开发中。
贡献者: 85(提升12%),提交数:6588
Github URL:http://github.com/numenta/nupic
13. Neon:是Nervana的Python深度学习库。它提供简单而高性能的使用体验。
贡献者: 78(提升66%),提交数:1112
Github URL:https://github.com/NervanaSystems/neon
14. Nilearn: 是一个Python模块,用于在NeuroImaging数据上进行快速简单的统计学习。它利用scikit-learn Python工具箱进行多变量统计,并具有预测建模、分类、解码或连接分析等应用。
贡献者: 69(提升50%),提交数:6198
Github URL:http://github.com/nilearn/nilearn
15. Orange3:为新手和专家提供开源机器学习与数据可视化。使用大型工具箱交互式数据分析工作流程。
贡献者: 53(提升33%),提交数:8915
Github URL:https://github.com/biolab/orange3
16. Pymc:一个Python 模块,用于实现贝叶斯统计模型和拟合算法,包括马尔可夫链蒙特卡罗。其灵活性和可扩展性使其适用于多种类型的问题。
贡献者: 39(提升5.4%),提交数:2721
Github URL:https://github.com/pymc-devs/pymc
17. Deap:用于快速原型设计和测试思想的新型演化计算框架。它力图使算法明确、数据结构透明。它能够与多处理和SCOOP等并行机制完美协调。
贡献者: 39(提升86%),提交数:1960
Github URL:https://github.com/deap/deap
18. Annoy (Approximate Nearest Neighbors Oh Yeah):是一个C ++库,使用Python绑定来搜索接近给定空间中的查询点。它还创建映射到内存的大型只读文件数据结构,以便许多进程共享相同的数据。
贡献者: 35(提升46%),提交数:527
Github URL:https://github.com/spotify/annoy
19. Pybrain:是一个为Python设计的机器学习库模块。它致力于提供灵活,方便操作但同时强大的算法,以及比较算法的机器学习任务与多种预设环境。
贡献者: 32(提升3%),提交数:992
Github URL:http://github.com/pybrain/pybrain
20. Fuel:一个数据管道框架,为你的机器学习模型提供所需的数据。它被设计为由Blocks和Pylearn2神经网络库共同使用。
贡献者: 32(提升10%),提交数:1116
Github URL:http://github.com/mila-udem/fuel
文章来源:https://www.kdnuggets.com/2016/11/top-20-python-machine-learning-open-source-updated.html