一个菜鸟关于互联网数据与传统行业数据的一点浅见

浏览: 1998

无论是中国提出的《中国制造2025》,还是德国工业4.0, 大数据被认为是物理与信息融合中的关键技术,核心引擎。各行各业迈入了轰轰烈烈的大数据时代。传统的制造业再也不能是闷头生产+再销售的模式,而是要更多地聆听市场的声音,市场需要什么,我的消费终端更多的多样化、个性化。所有都是从互联网开始,逆向地改造着各个环节, 从与消费者最近的广告营销端开始,进入零售,渗透进分销环节,最终倒逼到生产制造环节,在此过程中生产方式、管理理念、生产设备、甚至原材料都将发生重大变化。




作为这个行业的一个菜鸟,各方面见识浅薄,在这里浅谈下我眼中的互联网数据和传统行业数据。


一: 结构化数据和非结构化数据

传统行业更多的是结构化数据, 即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据,像以应用oracle、Sql Server等数据库的制造型企业的ERP系统。而互联网行业更多的是非结构化数据,就是不能以二维形态描述的,例如所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等,像是医疗影像系统、教育视频点播、视频监控、国土GIS、设计院、文件服务器(PDM/FTP)、媒体资源管理等具体应用。


二:数据的体量

互联网行业海量的数据,由于互联网行业的特点,每时每刻都会产生海量的数据,它的数据往往是PB级的,1个PB有多大呢?它相当于2的50次方个字节。如果你对此没有概念,那么简单来说,《史记》约有52万多汉字,1个PB能够存储至少10亿部《史记》,以百度、腾讯、阿里为代表的企业。传统的一个生产制造工厂三个月制造的数据也不到100G。这是天大的一个差别。


三:看待数据的方式及数据分析目的不同

互联网行业会对这些海量的数据做数据分析,挖掘,无论是过去的数据还是即时的数据,数据不再是静止和陈旧的,任何被遗忘在服务器中的数据,都可能被重新利用,从而发现其中与我们、与行为、与现象的相关性,比如每逢“双十一”,“剁手党”都面临痛苦的抉择:打折的商品实在太多,买什么才好呢?最终一不小心,信用卡刷爆,买了一大堆自己不需要的商品,只得含泪吃半年的“康师傅”…

谷歌公司每天都会收到来自全球超过30亿条的搜索指令,经过多年数据的累计,谷歌公司建立了“咳嗽”,“发热”等搜索关键字与流感地区的联系,于是在2009年谷歌成功地在美国预测了冬季流感的传播,并且精确到地区和州等等。而传统行业则不会过多去关注过去的数据,一般月底会盘点,出一些财务的数据分析报表,历史的数据会存放于备份库里,有问题才会去查找。


四:数据查找的效率及安全性

互联网行业往往存储着用户的个人行为信息,他要求保证绝对的安全或者准确性,比如12306,每到年底,面临数亿人迁徙的购票压力,在临近春节购票高峰峰值的时候,它的要求绝对是用户打开网页的速度可以慢一点没关系,但是要保证用户购票信息的绝对安全。如果用户付款购买了一张高铁动车票,你那边没收到钱款,那面对着上亿人的购票钱款,这个绝对是要出大问题的。

而传统行业没有那么大的数据量和访问量,往往解决好并发,死锁等等问题,保证系统的高可靠性和稳定性,偶尔也会发生丢失一条采购记录或者生产记录的问题,由于一般用户都会除了系统录入以外,还会纸质的记录,那么这个也是可以被容忍的。



五:大数据技术快速获取有价值的信息

基于以上互联网行业的特点,当数据量不断增大时,也随之带来了一系列的问题。

比如假设解决某一问题有算法A 和算法B。在小量数据中运行时,算法A的结果明显优于算法B。也就是说,就算法本身而言,算法A能够带来更好的结果;然而,人们发现,当数据量不断增大时,算法B在大量数据中运行的结果优于算法A在小量数据中运行的结果。这一发现给计算机学科及计算机衍生学科都带来了里程碑式的启示:当数据越来越大时,数据本身(而不是研究数据所使用的算法和模型)保证了数据分析结果的有效性即便缺乏精准的算法,只要拥有足够多的数据,也能得到接近事实的结论。


由于能够处理多种数据结构,大数据能够在最大程度上利用互联网上记录的人类行为数据进行分析。大数据出现之前,计算机所能够处理的数据都需要前期进行结构化处理,并记录在相应的数据库中。但大数据技术对于数据结构的要求大大降低,互联网上人们留下的社交信息、地理位置信息、行为习惯信息、偏好信息等各种维度的信息都可以实时处理,立体完整地勾勒出每一个个体的各种特征。


一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱,大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。简单来说,大数据需要Hadoop=HDFS(文件系统,数据存储技术相关)+HBase(数据库)+MapReduce(数据处理)+……Others这样的分布式存储,分布式处理大数据架构,而不仅仅是传统的磁盘阵列数据存储处理方式。


互联网极大地改变了人们的生活,大量、高速、多变的信息每天都围绕在人们身边,我们需要更好的处理方式,去应对这种随时随地的变化。大数据技术将深远地改变互联网世界,改变整个生产生活的方式。随着技术的发展,大数据分析正在变得越来越容易,成本也越来越低,而且相比以前能更容易加速对业务的理解。比如Qlik产品,探索数据并发现符合您的敏捷业务需求的见解,阅读原文免费下载Qlik desktop版,体验不一样的数据分析与可视化。



国内领先的大数据整体解决方案

为客户提供大数据分析平台端到端的解决方案

Ebistrategy

亦 策 软 件

400-676-1711

长按关注

推荐 0
本文由 ebistrategy 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册