关联规则研究现状
最早的Apriori算法给出了关联规则的基本求解方法后,也留下了算法的不足之处,即:大数据量数据库中使用关联规则算法存在多次遍历数据库的消耗和大量关联规则产生带来的关联规则爆炸式增长的问题。
比如基于约束的关联规则求解,通过挖掘用户通常感兴趣的关联规则,来减少关联规则的挖掘量,再如划分和采样等关联规则求解方法,这些方法减少了挖掘的候选集。
通常通过一次性读取数据库或有限次大量读取数据库数据的方式来实现。如代表算法:FP - 树频集算法利用一种树结构来存储读取数据。
代表性的扩展:加权支持度关联规则、多层关联规则、多维关联规则。这里所谓的属性指的是关联规则概念或意义上的限定、区别于应用扩展。
根据具体的应用领域的需要,关联规则挖掘就领域应用做出改变,如文本关联分析、儿童意外伤害发现等等。
通过挖掘算法得到的关联规则仅仅是具有统计意义上的模式,至于这种模式的意义需要通过继续分析才能得到,经常使用聚类、检索、可视化等方法进行分析。
数据库在不断地更新,必然导致关联规则要随着这种变化进行改变,如何在已产生的关联规则的基础上进一步对数据库进行关联规则分析成为增量更新的研究点。
*
*
2021-12-06 14:28:01
3.76MB
硕士
1