DataPipeline创始人&CEO 陈诚：沃森与AI

发表: 2018-08-10 浏览: 1528

AI

微信 banner.png

引言：本文来自infoQ架构师电子月刊对DataPipeline创始人&CEO陈诚的约稿。陈诚，毕业于上海交大，留学于美国密西根大学，前Yelp大数据研发工程师，曾就职于美国Google、Yelp 等；拥有6年多的大数据、计算机算法等实践经验。

朋友圈最近看到一篇文章 ——《IBM沃森错开致命药，国内67家医院在用，秘密文件曝光严重bug》。虽然只是测试病例，但看上去沃森相当地不靠谱，给有出血症状的癌症病人开了容易导致出血的药品，严重时可致患者死亡。沃森是IBM花了150亿美元培养的AI学霸，成绩不尽如人意，部门不能盈利，失望在所难免。然而AI正如一个学习能力超强的小孩子，需要反复研习各种病例、新药，来提高判断的准确度。

无独有偶，最近也有另一篇报道说亚马逊AI的人脸识别系统遭到质疑，从535位美国参众两院议员中识别出28名“罪犯”，一时引起大量对于公共安全和执法准确率的担忧。亚马逊迅速在回应中提到在对Rekognition 系统人脸识别API的默认置信阈值被设置成了80%，建议应该使用99%。然而这样设置的话确实可以大量减少“误判”，但是却会产生更多的“漏判”，结果仍然未必会让人满意。

大众在AlphaGo之后对于AI的想象都是有点像孙悟空，在菩提祖师那里混了7年，而后一夜悟道，从此速度一日千里。然而任何创新的技术都需要快速迭代、不断更新。我们对于新技术既不需要盲目追捧，也不用质疑攻击。人工智能之所以是人工的，不就是因为我们人类善于思考，可以辩证客观地看待问题吗？

数据的质量和模型都会对AI结果产生巨大的影响，这次我们来聊聊数据。 AI的判断，高度依赖于我们输入给它的“知识”，如果输入数据不够准确、不够完整，得出的判断不靠谱也在意料之中。大部分数据分析师，每天都要花费大量的时间和精力去“整”数据，无论是数据质量，还是数据的完整性，一致性都差强人意，最高精尖的工程师也要花大力气去做最基础的数据工作，AI能不能不以事小而不为，帮我们先解决了数据的事儿？

AI不是万能的，数据不是万能的，没有数据是万万不能的。我们对于世界的认识和认知，进行抽象提取，而后成为知识。数据是这一切的基础。数据失之毫厘，AI的结果差之千里。数据工程师和AI算法工程师是背靠背的一对兄弟，相辅相成，谁也离不开谁。

创办DataPipeline之初，我们以为数据的事儿比起AI，门槛没有那么高，但是适用面广，然而越做越敬畏。如果AI最终的目的是帮助人类解决各种各样的问题，那么数据就是这个大厦最坚实的基础，基础不牢，地动山摇。我们不能只要顶层的无敌视野，却不愿意为打地基付出汗水和努力。数据的工作繁杂，日复一日，各种重复，远不如AI的高大上，然而吃不饱肚子，怎么追求精神上的富足？

回过头来看沃森的误判，病人有严重的出血症状，这个重要的信息，这条数据，究竟在哪个环节被“丢”掉了？

PS.添加DataPipeline君微信：datapipeline2018，拉你进技术讨论群。

0 个评论

要回复文章请先登录或注册