为解决传统数据挖掘算法在大量数据处理时面临的内存占用、计算性能等方面的问题,基于Hadoop平台,应用HBase文件存储系统对海量数据分布式存储以及Map Reduce框架进行分布式计算,实现Apriori经典数据挖掘算法。通过对已实现的Apriori算法进行优化,引入FIS-IS算法思想,从数据库扫描次数和容量消减方向进行改进。提出针对数据本身进行频繁预选项生成方法与对于频繁预选项剪枝步骤进行分组检索的优化方法。实验结果验证了改进算法对算法运行具有良好的优化效果。
2021-10-20 10:57:54
1.65MB
hadoop
1