Spark

spark是否可以像处理txt文件一样处理xml文件？

0

现有这样的情况：xml中有标签分割，不能简单的split（“ ”），不过如果想做一个xml版的wordcount应该怎么做呢，还需要把xml中的内容提取成txt格式然后再进行处理么。。。在线等
－－－－－－－－－－－－
业务需求是这样的。。。有xml文件如下
<?xml version="1.0" encoding="GBK"?>
<案例 id="1">
<检索属性 id="4" pid="1">
<钢液 id="10" pid="4">
<品种 id="13" pid="10">桥梁用结构</品种>
<钢号 id="14" pid="10">cr121215</钢号>
<成分 id="15" pid="10">C</成分>
<温度 id="16" pid="10">34℃</温度>
</钢液>
<板坯尺寸 id="11" pid="4">
<宽度 id="36" pid="11">10.3</宽度>
<厚度 id="37" pid="11">11.55</厚度>
<定尺长度 id="38" pid="11">14.85</定尺长度>
</板坯尺寸>
<最大拉速 id="12" pid="4">16.7</最大拉速>
</检索属性>
<工艺参数 id="5" pid="1"></工艺参数>
<生产结果 id="6" pid="1">一级</生产结果>
</案例>
需要对这个xml文件的属性和值进行提取，有一步是对标签内的属性做一个排重统计，即最后输出
｛检索属性，钢液，品种，钢号，成分，温度，钢液。。。。。｝我知道这个其实是一个wordcount，可是又不知道怎么对xml文件进行wordcount。。。。
先谢谢了

重要提示：提问者不能发表回复，可以通过评论与回答者沟通，沟通后可以通过编辑功能完善问题描述，以便后续其他人能够更容易理解问题.

课程推荐：实战秘技，经典案例，一门课程锤炼数据分析师八大能力！

1 个回复

1

牟瑞 - 大数据 Hadoop 讲师 Hadoop入门课程地址：http://www.hellobi.com/course/39　有架构师，技术总监，CTO的职位请联系我！ 2015-11-20 回答

这个是wordcount的应用场景么。。我个人感觉，如果有很多xml，你可以解析到数据，然后通过数据库做count是不是效果更好，mssql和mongodb都可以解决count

要回复问题请先登录或注册

spark是否可以像处理txt文件一样处理xml文件？

1 个回复

发起人

相关问题

问题状态

spark是否可以像处理txt文件一样处理xml文件？

与内容相关的链接

1 个回复

发起人

相关问题

问题状态