hbase中有海量网页源代码,需要从海量源代码中精确抽取出【作者,时间,评论内容,点击数】等信息,请问,我该按照什么步骤,思路操作?

0
已邀请:
1

Bob - 同程旅游大数据+BI 架构师 2016-12-16 回答

1.对网页源代码进行抽样查看,确认作者,时间,评论内容,点击数对应的位置,并编写好对应的正则表达式
2.编写程序对hbase的数据进行遍历
这个过程可以使用scan API,也可以使用mapreduce
拿到每行明细数据后使用正则进行解析,获取相应字段的值
3.将结果写入到一个新的hbase表或hdfs目录中
0

刘文涛23 2016-12-20 回答

谢谢老师,
0

randolph_huangjiayi - UI设计师 2017-01-04 回答

版本修改测试 请忽略此回答 谢谢

要回复问题请先登录注册