如何向普通人讲解大数据是怎么一回事?

0
有哪些事件或例子可以简单易懂的描述大数据是怎么一回事?
已邀请:
3

牟瑞 - 大数据 Hadoop 讲师 Hadoop入门课程地址:http://www.hellobi.com/course/39 有架构师,技术总监,CTO的职位请联系我! 2015-08-28 回答

以下内容摘自我的收藏,如有朋友看到原创的地方,还请告知:
 
你问什么是大数据,没有人可以准确地回答你,他们只能给你举例子,说“你看,这就是大数据”,那我也来给你举两个例子吧。
事例1:现在中国有所的卫星每年能返回4-6期完整的数据,也就意味着,卫星每3-4天将生成1PB左右的数据,数据量达到PB以上级别,单从量上面就可以称为大数据了,因为这么多的数据,对我们目前的存储技术和数据处理能力而言,挑战很大。

事例2:截止2013年年底,中国移动用户超7.1亿,用户通话、上网产生的海量数据也可以称为大数据。这么多的数据价值无穷,可以用于改善用户体验、优化网络质量、开展精准营销等方面,从这里你可以看出大数据为什么会被炒得如此热门了吧?但热归热,这些应用要落到实处,还有待语音、图像处理技术和数据存储技术的进一步突破和改进。

那大数据可以怎么用呢?如下:




大数据未必能改变社交,但它了解社会

《纽约时报》曾发表过一篇叫《大数据做不到什么》的文章,记者David Brooks认为大数据首先不擅长的是社交,因为数据侧重社会交往的“量”而非“质”。

但是,大数据在社交媒体上的应用程度已经今非昔比了。比如今年世界杯上IBM和腾讯进行了一次合作,由IBM在社交媒体平台上挖掘信息,然后由腾讯策划报道。

球迷们每天发那么多消息,而且大多是文字信息而非数字,他们是怎么挖掘和分析的呢?首先是“命名实体识别”,不管球迷是用手机还是电脑发消息,都会有一些文字没有标点符号,这个技术可以把人名啦、球队名等等先识别出来。然后是“话题检测”,也就是识别球迷们讨论的是什么话题。对于球迷来说,这个技术的好处在于,媒体会针对他们所关心的话题来报道赛事。最后是“语义情感分析”,也就是搞清楚球迷在讨论什么话题后,再判断球迷的立场。这样一来,比赛之后,球迷们对球赛或者队员的看法就一目了然了。

所以说,以前技术可能只擅长挖掘大数据,也就是数据本身,而现在,它还能判断你们在聊什么。

大数据预测不到未来

反大数据思潮中另一个重要观点是,大数据只是基于对历史信息的梳理,无法预测未来。

2008年,谷歌公司建立了一个预测流感趋势的网站,用统计网络搜索关键词的方法来计算流感在某地区发生的可能性。这个网站当即被作为大数据预测未来的经典案例,然而,这个系统却没预测到2009年H1N1禽流感的爆发。虽然外界没说什么,但谷歌内部憋了一口气,立即对预测算法做了调整。新的算法引起了另一个问题,他们的预测工具变得比更年期女性还敏感,动不动就发布疫情预报。

到了2013年2月,《自然》杂志实在忍不住发表文章说,你们谷歌的不靠谱预测导致1月份流感疫苗都脱销了可还行?!有人认为大数据这种以古论今的观点忽略了那些不可预知的事件,积累了再多过去的信息,也没有办法知道接下来会发生什么突变。

不过大数据服务商可不想改行去算命。但他们也没有对大数据预测抱太大信心,在那些不允许大误差、严重关切企业利益的商业活动中,是不会仅凭大数据来做决策的。

话说回来,预测未来是个高深的概率问题,大数据可能不行,但目前也没有其他工具行。

不管你信不信,机器只会变得越来越聪明

David的文章还提到数据分析不懂叙事,也不懂思维的浮现过程。然而,今年7月,美联社宣布今后将采用一种软件产品来撰写企业财报消息,这种机器人就是依靠大数据来抓取信息,根据算法来撰写新闻,它们甚至可以完美模拟人类作者的语调和风格。

所以说,在David写完文章之后,大数据世界的变革仍在继续,工程师们需要专注的只是算法,算法,还是算法。

当然了,反大数据的人们关注的问题还有,在进一步发展大数据应用时,如何保护用户的隐私?人们不仅要为黑客担心,还不希望看到企业为了利益而侵犯大众隐私。反过来,使用大数据工具的企业们其实也在为数据的真实性而担心,比如招聘时抓取的简历信息会不会有造假成分、抽样来的微博用户是不是雇佣水军炒作话题。

但是,这些与其说是科学问题,不如说是道德问题。

要回复问题请先登录注册