海量数据访问,如何对1000000000000数据量的数据集进行随机汇总操作?
0
数据集结构非常简单,就是一个浮点数的列表,但数据量很大,
现在要对这个数据集进行随机的汇总,计算规则如下:
例如有10000万亿条数据,
给出一个区间,如:100,888888888,
要计算出位置为100到888888888这些数据的和。
如果单按计算规则来看,我个人感觉在内存中建一个连续的数组,然后通过直接寻址依此访问累加应该是最快得了,但是数据量太大,数组方案大概行不通。
求教各位还有木有别的方案能解决此问题啊?
现在要对这个数据集进行随机的汇总,计算规则如下:
例如有10000万亿条数据,
给出一个区间,如:100,888888888,
要计算出位置为100到888888888这些数据的和。
如果单按计算规则来看,我个人感觉在内存中建一个连续的数组,然后通过直接寻址依此访问累加应该是最快得了,但是数据量太大,数组方案大概行不通。
求教各位还有木有别的方案能解决此问题啊?
没有找到相关结果
重要提示:提问者不能发表回复,可以通过评论与回答者沟通,沟通后可以通过编辑功能完善问题描述,以便后续其他人能够更容易理解问题.
3 个回复
seng - 从事BI、大数据、数据分析工作 2015-09-25 回答
赞同来自: BAO胖子
1,找到记录的时间
2,计算的时间
1.找到记录的时间数据可以按区间分割, 可以减少定位时间,不过数据读取的时间少不了
2.计算的时间和记录数和计算复杂度有关,
在一定的数据量下这些工作量是不会减少,分布计算这是把这些分散到不同的机器上计算,通过并行减少等待时间。
牟瑞 - 大数据 Hadoop 讲师 Hadoop入门课程地址:http://www.hellobi.com/course/39 有架构师,技术总监,CTO的职位请联系我! 2015-09-25 回答
赞同来自: BAO胖子
GeorgeYao - 路漫漫其修远兮,吾将上下而求索! 2015-09-25 回答
赞同来自: