大数据环境下,传统的串行FP-Growth算法在处理海量数据时,占用内存过大、频繁项多,适用于大数据情况的PFP(parallel FP-Growth)算法存在数据量增大无法处理的缺陷。针对这些问题,提出了基于Hadoop的负载均衡数据分割FP-Growth并行算法。在Hadoop平台下,使用负载均衡和数据分割相结合的方式对原始事务数据集分片实现并行化。实验证明,基于Hadoop的负载均衡数据分割FP-Growth并行算法在处理数据量和效率上有所提高。
2021-11-12 15:31:33 503KB Hadoop
1
通过优化条件模式基生成过程,优化寻找条件模式基路径,节省了大量的挖掘时间,相比于经典FP算法,挖掘速度有了很大的提高!VC++6.0环境下运行,利用字符数据作为测试数据!程序大部分利用STL实现,有不恰当的地方希望大家批评指正!
2021-11-09 16:21:49 1.01MB 数据挖掘 FP优化算法 挖掘速度较快
1
数据挖掘中关联挖掘算法比较典型的有Apriori和FP-growth算法.实验和研究证明FP-growth算法优于Apriori算法.但是针对大型数据库这两种算法都存在着较大缺陷,不仅要两次或多次扫描数据库,而且很难处理支持度和数据变化等关联规则更新问题.作者提出了基于模式矩阵的FP-growth改进算法,它至多扫描数据库一次,特别在更新问题上不用重新扫描数据库.通过实验结果分析,验证了这种改进算法相对于原有FP-growth算法的优势,特别在大数据集下,大大降低了挖掘的时间复杂度。
2021-11-09 16:03:52 334KB 自然科学 论文
1
FP-Growth算法原代码
2021-11-09 13:55:28 7KB FP-Growth
1
FP-growth算法在python中的实现,代码亲测可用,如果有 类似:'ascii' codec can't decode byte 0xe8 in position 0 的报错,请修改fpgrowth.py中的CreatFPtree中的下面两种: orderedItem = [v[0] for v in sorted(localD.iteritems(), key=lambda p:(p[1], -ord(p[0])), reverse=True)] # orderedItem = [v[0] for v in sorted(localD.iteritems(), key=lambda p:(p[1], int(p[0])), reverse=True)]
2021-11-09 13:47:18 4KB Python FP-growth
1
matlab生长代码树枝状晶体生长 该存储库包含 Kobayashi 在“树枝状晶体生长的建模和数值模拟”中提出的各向同性和各向异性树枝状晶体生长的 MATLAB 实现 编写了一个代码来解决两个方程 - 一个是温度演化,一个是小林论文中给出的相场演化。 已经使用了温度方程的显式方法和相场模拟的显式时间推进方案。 由于我正在求解各向同性增长,因此我使用相场方程的各向同性版本。
2021-11-03 13:48:13 1.28MB 系统开源
1
个人封装的轮播图,跑马灯,模态框,tab,下拉列表功能
2021-10-14 19:03:18 761KB js
1
相场法(Phase field method) 是以Ginzburg-Landau理论为物理基础,通过微分方程来体现具有特定物理机制的扩散、有序化势和热力学驱动的综合作用,通过计算机编程求解上述方程,从而获取研究体系在时间和空间上的瞬时状态。相场法是一门交叉学科的衍生物,它需要研究者具备材料科学、数学和物理学、计算机编程学等基本知识。 利用相场模拟枝晶生长matlab代码
2021-10-05 19:42:03 4KB 相场  组织模拟 枝晶生长 matlab
1
基于《机器学习实战》中FP-Growth的代码修改形成的频繁项集挖掘函数FP_Growth(),可显示各频繁项集的支持度;同时,还包括关联规则发现函数findRules()。
2021-10-02 13:53:33 6KB fp-growth
1
MATLAB 中的相场代码,用于求解 Fan & Chen 为晶粒生长现象开发的二维相场模型(具有 10 个不同晶粒取向的 10 个阶参数的模型)。
2021-09-02 19:48:33 130KB matlab
1