【译】重新定义“数据科学家”

浏览: 1653

作者: BERNARDO LUSTOSA

来源:VentureBeat

参与:Cynthia

翻译:本文为天善智能编译,未经容许,禁止转载




在机器学习的早期,雇佣优秀的统计人员是人工智能项目的关键挑战。现在,机器学习已经从早期的关注统计数据到更加重视计算。随着构建算法的过程变得越来越简单,人工智能技术的应用越来越多,人工智能领域的人力资源专家面临着新的挑战。数据科学家不仅处于供不应求的状态,而且判定一个成功的数据科学家的标准发生了变化。


  • 统计模型与神经网络的差异
  • 就在六年前,统计模型(通常是逻辑回归)和神经网络之间的差异还很小。作为一个黑盒子,神经网络具有稍强的分离能力(统计性能)。由于它们具有相似的潜力,所以选择是否使用神经网络或统计模型是由每个场景的需求和创建算法的专业人员类型决定的。

    然而,最近神经网络已经进化到支持许多层。这种深度学习能够有效和新颖地利用非结构化数据,如文本、声音、图像和视频。增强的处理能力、图像标识符、同声传译、文本解释器和其他创新使神经网络与统计模型进一步分离。伴随这种进化发展,需要拥有新技能的数据科学家。


  • 建立算法的元素
  • 尽管算法结构和功能发生了变化,构建高质量预测模型的过程仍然遵循了一系列没有太大变化的步骤。比所使用的拟合和方法更重要的是能够有效和创造性地执行这个过程的每个步骤。


  • 现场采访
  • 数据科学家通常不是他们研究的领域的专家。相反,他们是为各种企业或学术决策过程创造算法所需的准确性和精确性的专家。然而,如今的要求是,数据科学家要对算法要解决的问题有所了解,因此,与专注于这个特定问题的主题专家进行访谈是必不可少的。现在,数据科学家可以研究跨越广泛知识领域的神经网络,从预测非洲蝴蝶的死亡率到决定何时何地为老年人发布广告。这意味着今天的数据科学家必须能够并且渴望向许多学科的专家学习。


  • 理解问题
  • 每个预测都取决于大量的因素,数据科学家必须知道这些因素,以便理解它们之间的因果关系。例如,要预测哪些申请人会拖欠贷款,数据科学家必须知道要问以下问题:

    为什么人们会违约?

    他们是否计划在申请时违约?

    违约者的负债是否超过了他们的收入?

    申请过程中是否存在欺诈?

    申请贷款是否存在销售压力?

    这些是关于这个话题的许多问题中的一部分,而且在每一个机器学习的步骤中都有很多问题。一个数据科学家如果只想创建算法而不与涉及正在探索的现象的人深入交谈,那么他创建有效算法的能力将是有限的。


  • 识别相关信息
  • 作为一名数据科学家,在筛选这些问题的答案时,还必须熟练地挑选出可能解释这种现象的信息。一个训练有素、充满好奇心的数据科学家还将通过搜索、爬虫和API在网上查找相关数据,以确定最相关的预测因素。


  • 抽样
  • 统计知识——在计算知识、经验和判断的基础上——对于响应变量的定义、数据库的分离、过去数据使用的认证、调整、验证和测试之间的数据分离以及其他的抽样步骤而言非常重要。然而,如今计算方法正支持越来越大的构建复杂算法所必需的数据库。因此,统计和计算技能对当今的数据科学家来说都是必须的


  • 调整和评估
  • 这一步骤已经被改变,相比学术技术知识需要更多的连通性和努力。在计算方法中,调整和评价主要基于社区研究和尝试和错误。由于不可能对等式中隐含的因果关系进行数学理解,专业人员应该知道如何搜索最适合他们活动的网络体系结构。一旦他们找到了适用的方法,就需要反复试验,直到找到对这一现象的满意解释。


  • 安装启用
  • 在这一步中,数据科学家的IT知识和与主题相关专家的关系是至关重要的。所有这些API、内部数据提取和爬虫都不容易精确、稳定且不出差错地部署。例如,如果使用了爬虫,那么将来它必须在没有生产错误的情况下运行,并且如果源代码发生变化,爬虫就将需要维护。今天的数据科学家不仅设计算法,还设计新的应用程序,而这些应用程序必须受到监视和维护。

    基于对每一步的新要求,彻底性、创造力和整体视野都是一个伟大的数据科学家的标志,对于这些能力的要求远远超过了线性代数的专业知识。当然,这并不排除有经验的统计学家。他们经常能很容易地适应这些变化,用他们的语言和体系结构深入地研究这些变化。计算机学院还培养出完全有能力表现出色的专业人士,只要他们将研究和理解问题与思考概率的能力结合起来。


    传统主义者可能会坚持认为,统计学家是数据科学领域最优秀的人才。但是我相信好奇心,广博的学术知识,以及愿意与他人一起追求信息等对于现代数据科学家的角色来说比统计训练更重要,因为神经网络的创建需要比算法本身更广泛的关注。



    原文地址:https://venturebeat.com/2018/05/20/as-machine-learning-evolves-we-need-to-update-the-definition-of-data-scientist/

    推荐 0
    本文由 sw_Yang 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
    转载、引用前需联系作者,并署名作者且注明文章出处。
    本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

    0 个评论

    要回复文章请先登录注册