2018全国高校云计算应用创新大赛 最终排名:1 repo为技能赛的赛题一: 购物篮数据集 记录数 项目数 最短长度 最长长度 平均长度 1,692,082 5,267,656 1 71,472 177 用户数据集 用户数 项目数 最短长度 最长长度 平均长度 330,244 1,080,203 4 1,195 130 采用的频繁项集挖掘算法为PFP-Growth 比赛相关信息点 项目结构   本项目用scala语言编写,用maven组织。代码结构如下。 项目src/main/AR目录下存放源代码文件。 main文件夹中存放频繁项集挖掘与关联规则生成与关联规则匹配与推荐分值计算这两个模块的代码。 util包里FPTree、AssociationRules是频繁项集挖掘所必须的数据结构,FPNewDef是基于mllib的FP-Growth算法的优化版本。 conf文件夹包含一个Conf类用于
1
Association-Rules-Movies-Dataset-Using-Python:为所有数据集准备规则1)尝试不同的支持和置信度值。 观察不同支持和置信度值的规则数量的变化2)更改先验算法中的最小长度3)使用不同的图对获得的规则进行可视化
2021-11-13 10:06:56 3KB Python
1
高效先验 Apriori算法的高效纯Python实现。 适用于Python 3.6及更高版本。 先验算法发现分类数据中的隐藏结构。 经典示例是一个数据库,其中包含从超市购买的商品。 每次购买都有许多与之相关的物品。 我们想从数据中发现关联规则,例如{bread, eggs} -> {bacon} 。 这是的目标,而可以说是解决此问题的最著名算法。 该存储库包含apriori算法的有效,经过测试的实现,如Agrawal等人于1994年发表的中所述。 该代码是稳定的并且被广泛使用。 Bonaccorso在《精通机器学习算法》一书中对此进行了引用。 例子 这是一个最小的工作示例。 请注意,在每次有eggs交易中,也有bacon 。 因此,将以100%的置信度返回规则{eggs} -> {bacon} 。 from efficient_apriori import apriori tran
1