今天很有荣幸接受资策会邀请参加数据座谈会.原本是设定为大数据应用相关的题目,但是发现一般谈怎么应用的讲座或课程已经很多了,所以这次的 talk 将重点放在如果要达到数据应用,需要什么样的条件.换句话说就是,在做数据应用之前,还要做些什么.
首先试想一个你我都有可能想过的情境:之前都说工程师失业就来卖鸡排,或是做个咖啡店,如果是你想开个小店卖吃的,那需要考虑哪些事情?
開店的思考
- 开什么店:有些人可能会根据喜好,来觉得想开的店;或是透过市场调查看卖什么好赚来决定,可能开鸡排店、可能开咖啡店.决定开什么之后再来找厨师和买材料.
- 有什么人:如果你有认识很会中菜的朋友,如果你想找他一起入伙,就很有可能卖个中菜、快炒,总不会卖个义大利面或法国菜.
- 有什么料:如果你家有渔船,或是认识肉品大盘商,能够取得相对便宜的原物料,开店的时候当然会想做海鲜餐厅或是火锅店,以取得竞争优势.
资料应用的思考
当思考资料应用时,一样有三个切入点分别是:
1. 应用:应用方面考虑的是想解决什么问题.先决定想做什么,再依据需求去寻找相关的人才和资料.像是空气盒子的专案,是因为自己孩子对空气过敏,才想开始监控空气品质,便开始成立社团,制作空气盒子搜集资料、加以分析.
2. 人才:人才面考虑的是专长领域.从 A 到 A+ 里面提到,找到对的人上车是最重要的事.先找到对的人再来决定要做什么.在资料领域,虽然方法可能大同小异,但是对产业的 domain knowledge 却是更重要的因素.如果有找到对的人,往往能帮助你更顺利的将资料转变为应用.
3. 资料:资料就像矿产一样,拥有丰富资料的公司在发展资料应用上天生就有优势,他们有更多方式(或更多限制)来将资料变现.也更容易从丰富的资料中发展各种应用.
巧妇难为无米之炊
因为这场是大数据相关讲座,所以重点会摆在资料上多一点(当然应用和人才也都很重要).当开始搜集资料的时候,就会面临到第一个问题:资料从哪来?虽然现在一直强调大数据大数据,但是难道只有大数据才有用吗?
如何衡量萬事萬物是最近的爱书,里面提供了搜集以及判断资料品质的具体方式和心法,详细可以看我之前的心得,这边就不赘述.
对于一个刚起步的资料人来说,把看似不知道怎么分析的问题,好好思考,问对问题,往往是开始搜集资料的第一步.
例如客户满意度,这是个太广泛太抽象的问题.透过一些思考方法,可以把问题拆解、说清楚.像是把客户满意度改成:客户回购率、客户平均单价、客户对于店员服务的满意程度,就会比较好测量.
而在实际搜集资料时,有四个心法可以参考:
- 你的问题不像你想的那么独特.
虽然有点残酷,但是真的大部分的问题都有人做过了.不管是员工表现,心理量表,什么碗糕指数甚至 Deep Learning 的基础都很久以前有人做了.而且世界上那么多博士生硕士生,你遇到的问题在世界上某个地方可能也有人遇过,找过答案了.就算不能直接搬人家的资料来用,也可以借用人家的方法来搜集资料. - 你有的资料多过你所想的
- 你需要的资料少于你所想的
这两点是一体两面的,不是所有问题都需要用超复杂的机器学习或 DL 来处理,行销面上基本的 RFM 模型好好用就也很厉害了. - 适当数量的新资料比想像中容易取得
对商务上来说,不需要等到所有资料到位(也来不及)才开始分析资料,分析资料的同时,其实也可以开始慢慢搜集新资料.不管是透过电话回访客户,开发 APP 让客户下载,甚至透过简单的邮件回信,都可以作为新资料以及新的分析基础.
拿到资料以后
当实际搜集到资料,特别是商务上,才是真的开始.一般再谈资料治理的时候都会面对以下几个大问题:
- 所有权
当使用者将资料给公司之后,公司具有保管使用者资料的义务,但是落实到公司内部要给谁/怎么保管,是个很麻烦的问题.特别当使用者资料越来越敏感的时候.(可参考脸书个资外泄事件) - 可近性
当资料都存在公司资料库后,要怎么方便同事使用,同时也能保障敏感个资? - 安全
这里的安全包括资料在系统上以及隐私性的安全.要怎么设置资料库备份来保障资料、设置防火墙或权限控管来保护资料都是需要考虑的议题. - 品质
资料是比想像中品质更为良莠不齐的.这些品质差异可能来兹前端系统的设计、调查时的填写错误、甚至在 ETL 、转档中发生的各种逻辑上或是格式错误. - 知识
资料在分析时一定需要有具备相当知识的人才能处理,如果不慎处理资料,甚至误解栏位意义,都会使最后分析变成一团糟.
最近流行起來的 DataOps 領域將資料工程、資料管理、以及分析整合在一起.認為資料需要有人能 End-to-End 來處理、管理,才能加速從資料到價值之間的流通.更多資訊可以參考: DataOps 宣言与实践原则
小结
资料应用不是一个单一的事件,背后包括了问题意识、Domain knowledge、以及资料.而不管是资料搜集还是资料分析,从来也不是一个单一线性的过程.会在与客户的互动中逐渐修正,例如开始搜集不足的资料,替换过时的模型、问卷,使用不同的分析方法工具等.希望今天的 talk 能够给各位一些实务上发展资料应用时的一些轮廓,帮助各位思考,建立自己的资料应用.
相关课程推荐:
玩转大数据分析!Spark2.X+Python 精华实战课程https://edu.hellobi.com/course/222
课程背景:
本套课程策划非常实用,集合了Python及最新版Spark一起来分析大数据,日常数据分析使用的语言最多的是R或者Python,但是这样的脚本语言先天只能在一台机器上发展,不适合分析大数据,因此需要其他大数据软件来处理,一般的大数据软件如HADOOP等又不太熟悉。而Spark是由Scala编写,也推出Pyspark,让熟悉Python者能够轻易熟悉操作大数据。