Python实现
目的
使用差距统计量动态识别数据集中建议的聚类数量。
在笔记本上使用完整的例子
安装:
出血边缘:
pip install git+git://github.com/milesgranger/gap_statistic.git
PyPi:
pip install --upgrade gap-stat
使用Rust扩展名:
pip install --upgrade gap-stat[rust]
卸载:
pip uninstall gap-stat
方法:
该程序包提供了几种方法,可根据 (Tibshirani等人)中介绍的Gap方法,协助选择给定数据集的最佳簇。
所实现的方法可以使用一系列提供的k个值对给定的数据集进行聚类,并为您提供统计信息,以帮助您为数据集选择正确的聚类数。 三种可能的方法是:
取k最大化针对每个k计算的Gap值。 但是,这并非总是可能的,因为对于许多数据集,此值是单调增加或减少的。
取最小的k ,使得Gap(k)> = Gap(k + 1)-s(k + 1)。 这是Tibshirani等人建议的方法。 (有关详细信息,请咨询本文
1