数据应用如何成为可能

浏览: 1932

今天很有荣幸接受资策会邀请参加数据座谈会.原本是设定为大数据应用相关的题目,但是发现一般谈怎么应用的讲座或课程已经很多了,所以这次的 talk 将重点放在如果要达到数据应用,需要什么样的条件.换句话说就是,在做数据应用之前,还要做些什么.

首先试想一个你我都有可能想过的情境:之前都说工程师失业就来卖鸡排,或是做个咖啡店,如果是你想开个小店卖吃的,那需要考虑哪些事情?

開店的思考

Screen Shot 2018-04-01 at 00.22.27.png

  1. 开什么店:有些人可能会根据喜好,来觉得想开的店;或是透过市场调查看卖什么好赚来决定,可能开鸡排店、可能开咖啡店.决定开什么之后再来找厨师和买材料.
  2. 有什么人:如果你有认识很会中菜的朋友,如果你想找他一起入伙,就很有可能卖个中菜、快炒,总不会卖个义大利面或法国菜.
  3. 有什么料:如果你家有渔船,或是认识肉品大盘商,能够取得相对便宜的原物料,开店的时候当然会想做海鲜餐厅或是火锅店,以取得竞争优势.

资料应用的思考

Screen Shot 2018-04-01 at 00.33.31.png

当思考资料应用时,一样有三个切入点分别是:

1. 应用:应用方面考虑的是想解决什么问题.先决定想做什么,再依据需求去寻找相关的人才和资料.像是空气盒子的专案,是因为自己孩子对空气过敏,才想开始监控空气品质,便开始成立社团,制作空气盒子搜集资料、加以分析.

2. 人才:人才面考虑的是专长领域.从 A 到 A+ 里面提到,找到对的人上车是最重要的事.先找到对的人再来决定要做什么.在资料领域,虽然方法可能大同小异,但是对产业的 domain knowledge 却是更重要的因素.如果有找到对的人,往往能帮助你更顺利的将资料转变为应用.

3. 资料:资料就像矿产一样,拥有丰富资料的公司在发展资料应用上天生就有优势,他们有更多方式(或更多限制)来将资料变现.也更容易从丰富的资料中发展各种应用.

巧妇难为无米之炊

因为这场是大数据相关讲座,所以重点会摆在资料上多一点(当然应用和人才也都很重要).当开始搜集资料的时候,就会面临到第一个问题:资料从哪来?虽然现在一直强调大数据大数据,但是难道只有大数据才有用吗?

如何衡量萬事萬物是最近的爱书,里面提供了搜集以及判断资料品质的具体方式和心法,详细可以看我之前的心得,这边就不赘述.

对于一个刚起步的资料人来说,把看似不知道怎么分析的问题,好好思考,问对问题,往往是开始搜集资料的第一步.

例如客户满意度,这是个太广泛太抽象的问题.透过一些思考方法,可以把问题拆解、说清楚.像是把客户满意度改成:客户回购率、客户平均单价、客户对于店员服务的满意程度,就会比较好测量.

而在实际搜集资料时,有四个心法可以参考:

  • 你的问题不像你想的那么独特
    虽然有点残酷,但是真的大部分的问题都有人做过了.不管是员工表现,心理量表,什么碗糕指数甚至 Deep Learning 的基础都很久以前有人做了.而且世界上那么多博士生硕士生,你遇到的问题在世界上某个地方可能也有人遇过,找过答案了.就算不能直接搬人家的资料来用,也可以借用人家的方法来搜集资料.
  • 你有的资料多过你所想的
  • 你需要的资料少于你所想的
    这两点是一体两面的,不是所有问题都需要用超复杂的机器学习或 DL 来处理,行销面上基本的 RFM 模型好好用就也很厉害了.
  • 适当数量的新资料比想像中容易取得
    对商务上来说,不需要等到所有资料到位(也来不及)才开始分析资料,分析资料的同时,其实也可以开始慢慢搜集新资料.不管是透过电话回访客户,开发 APP 让客户下载,甚至透过简单的邮件回信,都可以作为新资料以及新的分析基础.

拿到资料以后

当实际搜集到资料,特别是商务上,才是真的开始.一般再谈资料治理的时候都会面对以下几个大问题:

  1. 所有权
    当使用者将资料给公司之后,公司具有保管使用者资料的义务,但是落实到公司内部要给谁/怎么保管,是个很麻烦的问题.特别当使用者资料越来越敏感的时候.(可参考脸书个资外泄事件)
  2. 可近性
    当资料都存在公司资料库后,要怎么方便同事使用,同时也能保障敏感个资?
  3. 安全
    这里的安全包括资料在系统上以及隐私性的安全.要怎么设置资料库备份来保障资料、设置防火墙或权限控管来保护资料都是需要考虑的议题.
  4. 品质
    资料是比想像中品质更为良莠不齐的.这些品质差异可能来兹前端系统的设计、调查时的填写错误、甚至在 ETL 、转档中发生的各种逻辑上或是格式错误.
  5. 知识
    资料在分析时一定需要有具备相当知识的人才能处理,如果不慎处理资料,甚至误解栏位意义,都会使最后分析变成一团糟.

Screen Shot 2018-04-01 at 01.11.44.png



最近流行起來的 DataOps 領域將資料工程、資料管理、以及分析整合在一起.認為資料需要有人能 End-to-End 來處理、管理,才能加速從資料到價值之間的流通.更多資訊可以參考: DataOps 宣言与实践原则

Screen Shot 2018-04-01 at 01.12.11.png


小结

资料应用不是一个单一的事件,背后包括了问题意识、Domain knowledge、以及资料.而不管是资料搜集还是资料分析,从来也不是一个单一线性的过程.会在与客户的互动中逐渐修正,例如开始搜集不足的资料,替换过时的模型、问卷,使用不同的分析方法工具等.希望今天的 talk 能够给各位一些实务上发展资料应用时的一些轮廓,帮助各位思考,建立自己的资料应用.

Screen Shot 2018-04-01 at 01.07.04.png

相关课程推荐:

玩转大数据分析!Spark2.X+Python 精华实战课程https://edu.hellobi.com/course/222

课程背景:

本套课程策划非常实用,集合了Python及最新版Spark一起来分析大数据,日常数据分析使用的语言最多的是R或者Python,但是这样的脚本语言先天只能在一台机器上发展,不适合分析大数据,因此需要其他大数据软件来处理,一般的大数据软件如HADOOP等又不太熟悉。而Spark是由Scala编写,也推出Pyspark,让熟悉Python者能够轻易熟悉操作大数据。


推荐 1
本文由 bryanyang 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

谢谢老师

要回复文章请先登录注册