Hadoop求关键路径问题,如何编码

0
A B C D 
B C E
A D B C F
A C B C A
可以看出所有路径都包含B C
如何通过HADOOP技术实现功能
HIVE PIG MAPREDUCE都可以
谢谢提供个思路 
已邀请:
2

牟瑞 - 大数据 Hadoop 讲师 Hadoop入门课程地址:http://www.hellobi.com/course/39 有架构师,技术总监,CTO的职位请联系我! 2015-09-28 回答

提供其中一种思路(使用关联分析法):

设这四种路径的情况为四个集合:
set1: {A,B,C,D}
set2: {B,C,E}
set3: {A,D,B,C,F}
set4: {A,C,B,C,A}

利用apriori算法(频繁项集算法)找出关联最大(频率最高)的组合,也即是关键路径(每个集合中都会包含的 一个路径)

具体方法:

1. 生成所有两项组合的集合:
{A,B},{B,C},{C,D}
{B,C},{C,E}
{A,D},{D,B},{B,C},{C,F}
{A,C},{C,B},{B,C},{C,A}

2. 计算出每种组合在所有组合中出现的次数(或者频率),并倒序排序
{B,C}:4
{A,B},{C,D},{C,E},{A,D},{D,B},{C,F},{A,C},{C,B},{C,A}:1 

3. 选出组合频率最大的那个组合:{B,C}

 附件是Python的一个参考,还请参阅
也可以参阅:关键路径算法 

要回复问题请先登录注册