第四范式：基于大数据的科学研究

发表: 2019-08-22 浏览: 1590

图灵奖得主，关系型数据库的鼻祖吉姆·格雷(Jim Gray)也是一位航海运动爱好者。2007年1月28日，他驾驶帆船在茫茫大海中失联了。而就是17天前的1月11日，在加州山景城召开的NRC-CSTB（National ResearchCouncil-Computer Science and Telecommunications Board）大会上，他发表了留给世人的最后一次演讲“科学方法的革命”，提出将科学研究分为四类范式（Paradigm，某种必须遵循的规范或大家都在用的套路），依次为实验归纳，模型推演，仿真模拟和数据密集型科学发现（Data-IntensiveScientific Discovery）。其中，最后的“数据密集型”，也就是现在我们所称的“科学大数据”。

人类最早的科学研究，主要以记录和描述自然现象为特征，称为“实验科学”（第一范式），从原始的钻木取火，发展到后来以伽利略为代表的文艺复兴时期的科学发展初级阶段，开启了现代科学之门。

但这些研究，显然受到当时实验条件的限制，难于完成对自然现象更精确的理解。科学家们开始尝试尽量简化实验模型，去掉一些复杂的干扰，只留下关键因素（这就出现了我们在学习物理学中“足够光滑”、“足够长的时间”、“空气足够稀薄”等令人费解的条件描述），然后通过演算进行归纳总结，这就是第二范式。这种研究范式一直持续到19世纪末，都堪称完美，牛顿三大定律成功解释了经典力学，麦克斯韦理论成功解释了电磁学，经典物理学大厦美轮美奂。但之后量子力学和相对论的出现，则以理论研究为主，以超凡的头脑思考和复杂的计算超越了实验设计，而随着验证理论的难度和经济投入越来越高，科学研究开始显得力不从心。

20世纪中叶，冯·诺依曼提出了现代电子计算机架构，利用电子计算机对科学实验进行模拟仿真的模式得到迅速普及，人们可以对复杂现象通过模拟仿真，推演出越来越多复杂的现象，典型案例如模拟核试验、天气预报等。随着计算机仿真越来越多地取代实验，逐渐成为科研的常规方法，即第三范式。

而未来科学的发展趋势是，随着数据的爆炸性增长，计算机将不仅仅能做模拟仿真，还能进行分析总结，得到理论。数据密集范式理应从第三范式中分离出来，成为一个独特的科学研究范式。也就是说，过去由牛顿、爱因斯坦等科学家从事的工作，未来完全可以由计算机来做。这种科学研究的方式，被称为第四范式。

我们可以看到，第四范式与第三范式，都是利用计算机来进行计算，二者有什么区别呢？现在大多科研人员，可能都非常理解第三范式，在研究中总是被导师、评委甚至是自己不断追问“科学问题是什么？”，“有什么科学假设？”，这就是先提出可能的理论，再搜集数据，然后通过计算来验证。而基于大数据的第四范式，则是先有了大量的已知数据，然后通过计算得出之前未知的理论。在维克托·迈尔-舍恩伯格撰写的《大数据时代》（中文版译名）中明确指出，大数据时代最大的转变，就是放弃对因果关系的渴求，取而代之关注相关关系。也就是说，只要知道“是什么”，而不需要知道“为什么”。这就颠覆了千百年来人类的思维惯例，据称是对人类的认知和与世界交流的方式提出了全新的挑战。因为人类总是会思考事物之间的因果联系，而对基于数据的相关性并不是那么敏感；相反，电脑则几乎无法自己理解因果，而对相关性分析极为擅长。这样我们就能理解了，第三范式是“人脑+电脑”，人脑是主角，而第四范式是“电脑+人脑”，电脑是主角。这样的一种说法，显然遭到了许多人的反对，认为这是将科学研究的方向领入歧途。从科学论文写作角度来说，如果通篇只有对数据相关性的分析，而缺乏具体的因果解读，这样的文章一般被认为是数据堆砌，是不可能发表的。

然而，要发现事物之间的因果联系，在大多数情况下总是困难重重的。我们人类推导的因果联系，总是基于过去的认识，获得“确定性”的机理分解，然后建立新的模型来进行推导。但是，这种过去的经验和常识，也许是不完备的，甚至可能有意无意中忽略了重要的变量。

这里举一个大家容易理解的例子。现在我们人人都在关注雾霾天气。我们想知道：雾霾天气是如何发生的，如何预防？首先需要在一些“代表性”位点建立气象站，来收集一些与雾霾形成有关的气象参数。根据已有的机理认识，雾霾天气的形成不仅与源头和大气化学成分有关，还与地形、风向、温度、湿度气象因素有关。仅仅这些有限的参数，就已经超过了常规监测的能力，只能进行简化人为去除一些看起来不怎么重要的，只保留一些简单的参数。那些看起来不重要的参数会不会在某些特定条件下，起到至关重要的作用？如果再考虑不同参数的空间异质性，这些气象站的空间分布合理吗，足够吗？从这一点来看，如果能够获取更全面的数据，也许才能真正做出更科学的预测，这就是第四范式的出发点，也许是最迅速和实用的解决问题的途径。

那么，第四范式将如何进行研究呢？多年前说这个话题，也许许多人会认为是天方夜谭，但目前在移动终端横行和传感器高速发展的时代，未来的趋势似乎就在眼前了。现在，我们的手机可以监测温度、湿度，可以定位空间位置，不久也许会出现能监测大气环境化学和PM2.5功能的传感设备，这些移动的监测终端更增加了测定的空间覆盖度，同时产生了海量的数据，利用这些数据，分析得出雾霾的成因，最终进行预测也许指日可待。

这种海量数据的出现，不仅超出了普通人的理解和认知能力，也给计算机科学本身带来了巨大的挑战。因此当大这些规模计算的数据量超过1PB时，传统的存储子系统已经难以满足海量数据处理的读写需要，数据传输I/O带宽的瓶颈愈发突出。而简单地将数据进行分块处理并不能满足数据密集型计算的需求，与大数据分析的初衷是相违背的。因此，目前许多在具体研究中所面临的最大问题，不是缺少数据，而是面对太多的数据，却不知道如何处理。目前可见的一些技术，比如超级计算机、计算集群、超级分布式数据库、基于互联网的云计算，似乎并没有解决这些矛盾的核心问题。计算机科学期待新的革命！

0 个评论

要回复文章请先登录或注册