关联分析是一种发现隐藏在大型数据集中的有趣关系的方法。 给定一组交易,它会找到规则,根据交易中其他项目的出现来预测一个项目的出现。
规则的形式为 A -> B(例如,{洋葱,土豆} - > {汉堡})。
支持度和置信度的概念用于确定发现的规则的强度。
支持是同时包含 A 和 B 的事务的比例: 支持(A,B)= P(A,B)
置信度是交易的比例,其中 B 中的项目出现在包含 A 的交易中: 置信度(A,B) = P(B|A)
我们使用 Apriori 算法来识别频繁项集。 它通过识别数据库中频繁出现的单个项目并将它们扩展到更大的项目集,同时这些项目满足最低支持要求(数据库中项目的频率)。 然后使用 Apriori 确定的频繁项集来确定关联规则。
2023-04-25 19:10:38
8KB
matlab
1