spark是否可以像处理txt文件一样处理xml文件?
0
现有这样的情况:xml中有标签分割,不能简单的split(“ ”),不过如果想做一个xml版的wordcount应该怎么做呢,还需要把xml中的内容提取成txt格式然后再进行处理么。。。在线等
------------
业务需求是这样的。。。有xml文件如下
<?xml version="1.0" encoding="GBK"?>
<案例 id="1">
<检索属性 id="4" pid="1">
<钢液 id="10" pid="4">
<品种 id="13" pid="10">桥梁用结构</品种>
<钢号 id="14" pid="10">cr121215</钢号>
<成分 id="15" pid="10">C</成分>
<温度 id="16" pid="10">34℃</温度>
</钢液>
<板坯尺寸 id="11" pid="4">
<宽度 id="36" pid="11">10.3</宽度>
<厚度 id="37" pid="11">11.55</厚度>
<定尺长度 id="38" pid="11">14.85</定尺长度>
</板坯尺寸>
<最大拉速 id="12" pid="4">16.7</最大拉速>
</检索属性>
<工艺参数 id="5" pid="1"></工艺参数>
<生产结果 id="6" pid="1">一级</生产结果>
</案例>
需要对这个xml文件的属性和值进行提取,有一步是对标签内的属性做一个排重统计,即最后输出
{检索属性,钢液,品种,钢号,成分,温度,钢液。。。。。}我知道这个其实是一个wordcount,可是又不知道怎么对xml文件进行wordcount。。。。
先谢谢了
------------
业务需求是这样的。。。有xml文件如下
<?xml version="1.0" encoding="GBK"?>
<案例 id="1">
<检索属性 id="4" pid="1">
<钢液 id="10" pid="4">
<品种 id="13" pid="10">桥梁用结构</品种>
<钢号 id="14" pid="10">cr121215</钢号>
<成分 id="15" pid="10">C</成分>
<温度 id="16" pid="10">34℃</温度>
</钢液>
<板坯尺寸 id="11" pid="4">
<宽度 id="36" pid="11">10.3</宽度>
<厚度 id="37" pid="11">11.55</厚度>
<定尺长度 id="38" pid="11">14.85</定尺长度>
</板坯尺寸>
<最大拉速 id="12" pid="4">16.7</最大拉速>
</检索属性>
<工艺参数 id="5" pid="1"></工艺参数>
<生产结果 id="6" pid="1">一级</生产结果>
</案例>
需要对这个xml文件的属性和值进行提取,有一步是对标签内的属性做一个排重统计,即最后输出
{检索属性,钢液,品种,钢号,成分,温度,钢液。。。。。}我知道这个其实是一个wordcount,可是又不知道怎么对xml文件进行wordcount。。。。
先谢谢了
没有找到相关结果
重要提示:提问者不能发表回复,可以通过评论与回答者沟通,沟通后可以通过编辑功能完善问题描述,以便后续其他人能够更容易理解问题.
1 个回复
牟瑞 - 大数据 Hadoop 讲师 Hadoop入门课程地址:http://www.hellobi.com/course/39 有架构师,技术总监,CTO的职位请联系我! 2015-11-20 回答
赞同来自: 梁勇