在大数据领域,若要列出所有程序语言,R语言无疑是最值得关注的,而当你走进R语言,你会发现,它是站在巨人的肩膀上挥洒舞姿的。
1976年,John Chamber在贝尔实验室开发了S语言,用来代替昂贵的SPSS和SAS等工具,S语言是VAX和UNIX小型机时代的产物,但到了PC和Linux时代,R语言便开始独领风骚。
追溯R语言的由来,我们要回到1992年,新西兰奥克兰大学的统计学教授,两位“R姓”的先生,Ross Ihaka 和Robert Gentleman。
为了教授初等的统计学课程而发明了一种免费开源的语言(S语言是收费的),并且取了两人名字的首字母“R”来作为这门语言的名称。到了后期,BTW,S语言的开发者JohnChamber,也加入到了R语言的开发中,所以就不难理解,为什么R语言中的一些数据处理路径和S语言如出一辙。
(此处请原谅我的渣图...)
R语言从1997年以润物细无声的姿态悄然现身市场后,发展势头良好,尤其是近几年,身价大翻转,一时间成了科学界眼中价值连城的瑰宝。而这主要应归功于R语言的开源及免费,因为它不再是象牙塔里炮制的代码,而是一个由分析师、统计学家、交易员,以及程序员们构成的活跃而庞大的社区的产物。
这个社区为处理各种数据问题,创建了超过5000个函数包和2500个插件。而这个速度还在随着R语言使用人数增多而不断增加,目前全球有超过200万人(根据Revolution Analytics 2007年统计所得)在使用R,每天都在更新不同的函数包。
最近的调查显示,R语言在数据科学界里,已经成为最受欢迎的“香饽饽“了,占了回复者的61%。(紧追在后的是39%的Python)
多元化的公司像是Google、Facebook、美国银行以及NewYorkTimes通通都使用R。
R的好处在于它简单易上手,它几乎兼容所有的数据源和所有的编程环境。
透过R,你可以从复杂的数据集中筛选你要的数据,在复杂的模型函数中操作数据,然后建立井然有序的图表来呈现数字,而实现这些只是需要几行程序代码就可以了,最后你还可以根据你的数据分析逻辑修改R语言中的函数包,或者创建新的函数包。
在数据建模和机器学习上,它也正逐步朝专业成熟的语言方向迈进,目前来说,虽然R仍受限于当数据量增大就无法快速响应的问题上,但是它仍然不失为数据分析入门的第一语言。
R语言作为一门统计学语言,如果在学过统计学基础的前提下,入门还是相当容易的,但是因为R语言庞大的生态圈,想要熟练的掌握,还是一件非常难的事情,因此需要大家不断的学习和反复的练习,不过好在R语言的部署相当容易,还能借用友好界面的第三方编程工具——R Studio,同时函数包里也会自带数据,供学习者日常的学习和练习。
了解了这么多,你是不是对R语言动心了?等明天看完R语言在文本挖掘上的经典应用后,你会彻底爱上它的!
推荐大家阅读《R语言实战》,相对而言,这本书很适合初学者学习。
当你耐心地将代码从头到尾敲一遍后,一定会获益良多。