针对K-均值聚类算法需要事先确定聚类数K的问题,将粒度计算引入样本相似度函数,定义了新的样本相似度,用模糊等价聚类确定数据集可能的最大类簇数Kmax以Kmax为搜索上界,利用改进全局K-均值聚类算法,以BWP(Between-within Proportion)为聚类有效性度量指标,提出确定最佳聚类数的一种新方法.通过UCI机器学习数据库数据集以及随机生成的人工模拟数据集实验测试,证明该算法不仅能有效确定数据集的最佳聚类数,而且适用于大规模数据集,但是会受到噪音点影响.
2023-04-13 14:55:16 392KB 自然科学 论文
1
根据方差分析理论,提出应用混合F统计量来确定最佳分类数,并应用模糊划分熵来验证最佳分类数的正确性,综合运用上述两个指标可以准确确定最佳聚类数。通过实际算例说明这两个指标的有效性。
1
目前基于相似度的聚类方法对风电出力场景进行聚类划分, 而相似度又大多采用欧式距离长短作为衡量依据, 其结果反映时间序列曲线的幅度大小差异, 未能反映出曲线的形态特征及变化趋势的不同. 本文提出一种基于高斯混合聚类的风电出力场景划分的方法, 即通过属于某一类的概率大小来判断最终的归属类别. 首先根据BIC准则, 肘部法则和轮廓系数分别确定GMM聚类和K-means聚类的最佳数量, 然后以某地区实际风电为研究对象, 提取该地区3年春季风电出力典型场景, 并对这两种聚类结果进行对比分析, 验证本文方法的有效性. 最后通过GMM聚类模型提取该地区各个季节风电出力典型场景.
2022-03-05 14:57:53 1.95MB 聚类划分 最佳聚类数 GMM 典型场景
1
[IDX,C,SUMD,K] = best_kmeans(X) 划分 N×P 数据矩阵 X 中的点成 K 个簇。 X 的行对应点,列对应变量。 IDX 包含每个点的集群索引。 C 是 K×P 矩阵 C 中的 K 个簇质心位置。 SUMD 是 1×K 向量中点到质心距离的总和。 K 是使用 ELBOW 方法确定的聚类质心数。 ELBOW方法:计算从1到n,并且K是对应于90%百分比的簇数方差解释,这是组间方差与总方差。 见 找到最好的K个簇后,使用kmeans确定IDX,C,SUMD matlab中的函数。
2022-02-13 21:21:12 2KB matlab
1
此函数应用 L 方法(Salvador 和 Chan,2005 年)来估计评估图上的适当聚类数。 该软件已由作者在论文中创建和使用: [1] A. Zagouras, RH Inman, CFM Coimbra,关于确定用于公用事业规划和运营的相干太阳能微气候,太阳能,第 102 卷,2014 年 4 月,第 173-188 页,ISSN 0038-092X, http://dx .doi.org/10.1016/j.solener.2014.01.021 。 [2] A. Zagouras、A. Kazantzidis、E. Nikitidou、AA Argiriou,基于卫星云估计的聚类分析确定太阳辐照度测量点,太阳能,第 97 卷,2013 年 11 月,第 1-11 页,ISSN 0038-092X, http: //dx.doi.org/10.1016/j.solener.
2021-08-21 20:54:31 3KB matlab
1
一个小的“工具箱”(只有三个文件),用于通过 Tibshirani、Walther 和 Hastie 的间隙统计算法(2001 年)估计 2D 数据集中的最佳聚类数。 该代码已完全注释,因此您理解它应该没有问题。 如果您有任何问题或疑问,请随时与我联系。 更多详细信息在包中包含的 READ ME 文本文件中。 健康长寿·繁荣昌盛。
2021-08-09 09:39:51 6KB matlab
1
该函数采用 [Nx2] 格式的数据集,其中每个数据点表示为 [xi,yi] 和要考虑的最大聚类数 (kmax)。 然后,该函数使用 kmeans 和轮廓系数来确定最佳聚类数。 该函数输出每个 k 和最佳 k 的 S-score。 关于Silhouette聚类算法的详细信息,请参考以下链接: https://en.wikipedia.org/wiki/Silhouette_(聚类)
2021-07-19 22:25:06 1KB matlab
1
KMeans算法和Elbow准则 “ k-Means聚类背后的想法是获取一堆数据并确定数据中是否存在任何自然聚类(相关对象的组)。 k-Means算法是所谓的无监督学习算法。 我们事先不知道数据中存在什么模式-它没有形式分类-但我们想知道是否可以将数据以某种方式分为几类。 例如,您可以使用k-Means通过告诉像素根据其颜色值将像素分组为3个群集来查找图像中3种最突出的颜色。 或者,您可以使用它将相关新闻文章分组在一起,而无需事先确定要使用的类别。 该算法将自动找出最佳组。 k均值中的“ k”是一个数字。 该算法假定数据中存在k个中心,各个数据元素分散在周围。 最接近这些所谓质心的数据将被分类或分组在一起。 k-Means不会告诉您每个特定数据组的分类器是什么。 将新闻文章分成几组后,并不能说第一组是关于科学的,第二组是关于名人的,第三组是关于即将举行的选举的,等等。您只知道相关的新闻故事现在在一起了,但不一定是什么这种关系意味着。 k均值仅有助于寻找潜在的集群。” -取自对算法的移植。 存储库包含: 将的模型拟合到。 使用“肘标准”为K-means算法确定最佳聚类数
2021-04-11 10:21:11 100KB python machine-learning scikit-learn sklearn
1
为验证在聚类分析的聚类结果,重要的是要使用一些客观评价聚类质量的指标。本matlab工具箱提供4个外部效度指标和8个内部效度指标: Rand index, Adjusted Rand index, Silhouette, Calinski-Harabasz, Davies-Bouldin, Homogeneity, Separation等。含使用范例。
2019-12-21 20:22:36 37KB 最佳聚类数 聚类分析
1