python有大量机器学习库,但是不能结合hadoop,该如何实现大规模的机器学习?

0
已邀请:
1

seng - 从事BI、大数据、数据分析工作 2016-03-26 回答

Spark Mlib 实现了适合分布式机器学习算法。
对于这里面没有的,建议使用scikit-learn吧。
0

穆文 - 公众号: 数据挖掘机养成记 2016-04-20 回答

对于分布式的平台,Sarpk MLlib是一个好的选择,提供python接口,所以可以学习下PySpark。不过里面的算法不太多,需要的算法可以尝试自己实现
 
对于单机,楼上提到的sklearn是很常见的python单机算法库,但还有个更牛逼的、专门实现gradient boosting tree的包,叫xgboost,也提供python接口,并行实现各类树模型,比如常见的GBDT,速度相当快

要回复问题请先登录注册