在本文中,我们提出了一种算法TKBT(基于TKTT的top-k封闭频繁项集),可有效地挖掘数据流中的top-k封闭频繁项集。 首先根据滑动窗口中数据流的数据连续性和可变性,定义了一种新颖的结构BWT(位向量窗口表)。 在BWT水平方向上,我们使用位向量来表示事务,在最旧,最新的窗口以及当前时间的所有窗口中记录项目数,从而减少了新窗口滑入时项目数的计算时间。在BWT垂直方向上,我们设置了窗口分区,这使得我们只需要在出现新窗口时用相应的最新窗口替换最旧的窗口信息即可。 TKTT(top-k临时表)的构建基于BWT。 TKTT中的项目集按降序排列。 通过使用自上而下的策略将TKTT中的候选人连接起来,TKBT可以获得前k个封闭的频繁项目集。 通过使用封闭项集替换子集来减少候选数,并减少连接时间,从而减少运行时间。 实验结果表明,TKBT非常有效且可扩展。
1