咱们数据人最怕什么?没数据!
任咱们十八般武艺,神经网络,SVM,随机森林一板一眼的,就像学了屠龙之术,没有数据,那有如何寻得了龙来屠呢~
为了‘悲剧’不再,浩彬老撕本期打算新开数据收集教程系列,该系列将涵盖公开免费数据源,收费的数据网站,常用网络指数平台,以及爬虫程序等内容,欢迎各位强势围观。
当然,作为一个有追求的老撕,考虑到单纯把数据源罗列不太利于大家学习使用,所以打算分成几期为大家进行介绍。在每一期中,浩彬老撕将特定地介绍一个或数个定位类似或类型相同的数据源获取方式,并进一步结合使用说明介绍其特点,希望大家都能够动起手来练一练~
当然,在介绍完所有数据获取方式后,浩彬老撕还是会针对这个系列进行一个完整的总结~
好了,作为该系列开篇,那就不许是一个能“镇得住场面”的好东西——国家数据
“国家数据是国家统计局在2008年创建的"中国统计数据库"基础上,于2013年建立了新版统计数据库。”
事实上,大家可以把国家数据当作是一个全面整合版的统计年鉴数据库。
首先从数据种类来说,我们可以在这里获得包括从国际到国内的主要宏观经济指标,从全国31个省(区,市)到部分主要城市,从工业层面到消费零售层面,从年度,到季度月度的各种类型数据,可以说是最全的中国宏观数据资源了。
接下来为大家详细介绍一下国家数据的使用功能/方式:
1.报表式查询
国家数据采用了"主题—指标分类分组—报表"的展现形式,也就是已经为我们分门别类汇总完毕,我们可以根据需要,选择相应的主题以及指标分组,就可以得到相应的数据查询,同时该功能也分为简单查询与高级查询:
(1)简单查询:就是直接根据选择类别进行报表呈现,表现形式,主要有表格,柱状图以及扇形图。另外,根据需要可以直接在图表下方选择时间范围/具体指标。
同时图表也带有一定的编辑功能:包括标题,形式,颜色,坐标等;以及,也带有一定的数据管理功能,让我们能够根据需要选择按行或者按列进行求和,取平均,最大值,方差等计算,功能还是杠杠滴!
(2)高级查询(常用!):相比于简单查询,高级查询不再局限于同一主题内的指标查询,而是可以根据我们需要跨主题选择指标进行组合:
2.数据下载
当然报表查询功能除了让我们根据需要查询/展现数据,更加重要的就是根据我们的需要进行下载了。下载功能是在我们查询之后,尤其是借助于高级查询功能,我们根据需要生成需要的内容后,就可以点击进行下载,这个技能请满分掌握~
下载格式支持:Excel,CSV,XML以及PDF
3.精准化查数:
除了按照主题找到自己所需要外,我们当然可以直接输入我们所需要的关键词进行搜索了。根据搜索关键词,搜索结果将根据与关键词的相关程度由高到底排列展示,同时也提供了一定的过滤功能。
如浩彬老撕输入“2013 全国社会消费品零售总额 ”
Ps:浩彬老撕个人感觉查询搜索功能还有改进的空间,有些时候需要换一下关键字才能找到需要的结果。
4.可视化功能:
可视化功能一是指查询结果后,我们可以过图表的形式对结果进行展示;另外的话,国家数据也会根据一些需要自己制定一些简单的可视化报告,大家可以在主页的“可视化产品”栏目中找到:
5. 统计出版物
虽然浩彬老撕觉得查询功能已经能够覆盖到所有的数据了,但是假如大家还是习惯以出版物/报告的形式来研究的话,大家可以在主页的右上方找到“统计出版物”栏目查看,该栏目包括了1996年以来的《中国统计年鉴》、1978年以来的《统计公报》、1995年以来的《国际统计年鉴》以及《金砖国家联合统计手册》等国家统计局公开发布的统计资料。
6.发布日程
如果是经常需要查看最新数据的童鞋,则可以关注主页上的“发布日程”,这个功能主要是以日历形式标示每项发布的具体时间,当日最新更新的数据也将同时展示,可以方便大家快速知道最新的数据发布情况。
7.客户端:一个移动的强大数据库
为方面日常移动需求,因此国家数据也提供了移动客户端(IOS/安卓),那么大家在见客户前就可以先查查看对应的行业数据,虽然“临急抱佛脚”,但是多看一点是一点嘛~
例如,咱们可以用个30秒看看咱们最近几个月房地产累计投资~
看完之后,你会不会能有些其他想法呢~
近期热门文章精选(点击标题即可阅读):
1.统计挖掘那些事-超详尽回归分析指南(理论+动手案例)
2.机器翻译新突破 |谷歌翻译整合神经网络,AlphaGo之后再次挑战人类翻译地位(附论文)
3.SPSS与R的集成(1)(附详细教程及完整代码)
4.数据人也要懂的“装逼利器”,数据驱动下的“增长黑客”
5.菜鸟数据岛采访:数据分析工作的一些思考
作者简介:浩彬老撕
好玩的IBM数据工程师,
立志做数据科学界的段子手,
致力知识分享,每月至少一次送书活动