spark是否可以像处理txt文件一样处理xml文件?

0
现有这样的情况:xml中有标签分割,不能简单的split(“ ”),不过如果想做一个xml版的wordcount应该怎么做呢,还需要把xml中的内容提取成txt格式然后再进行处理么。。。在线等
------------
业务需求是这样的。。。有xml文件如下
<?xml version="1.0" encoding="GBK"?>
<案例 id="1">
<检索属性 id="4" pid="1">
<钢液 id="10" pid="4">
<品种 id="13" pid="10">桥梁用结构</品种>
<钢号 id="14" pid="10">cr121215</钢号>
<成分 id="15" pid="10">C</成分>
<温度 id="16" pid="10">34℃</温度>
</钢液>
<板坯尺寸 id="11" pid="4">
<宽度 id="36" pid="11">10.3</宽度>
<厚度 id="37" pid="11">11.55</厚度>
<定尺长度 id="38" pid="11">14.85</定尺长度>
</板坯尺寸>
<最大拉速 id="12" pid="4">16.7</最大拉速>
</检索属性>
<工艺参数 id="5" pid="1"></工艺参数>
<生产结果 id="6" pid="1">一级</生产结果>
</案例>
需要对这个xml文件的属性和值进行提取,有一步是对标签内的属性做一个排重统计,即最后输出
{检索属性,钢液,品种,钢号,成分,温度,钢液。。。。。}我知道这个其实是一个wordcount,可是又不知道怎么对xml文件进行wordcount。。。。
先谢谢了
已邀请:
1

牟瑞 - 大数据 Hadoop 讲师 Hadoop入门课程地址:http://www.hellobi.com/course/39 有架构师,技术总监,CTO的职位请联系我! 2015-11-20 回答

这个是wordcount的应用场景么。。我个人感觉,如果有很多xml,你可以解析到数据,然后通过数据库做count是不是效果更好,mssql和mongodb都可以解决count

要回复问题请先登录注册