基于密度的聚类聚类算法中的一种,其主要优点是可以发现任意形状的簇,但处理大数据集时效果不佳,为此提出了一种改进的算法M-DBSCAN,保留了基于密度聚类算法的优点,同时克服了以往算法不能处理大数据集的缺点。实验结果证明,M-DBSCAN聚类算法在聚类质量及速度上都比原DBSCAN有较大提高。
2022-06-25 15:04:19 255KB 聚类
1
NLP_Project 使用BERT的文本聚类 该存储库是DS8008-NLP课程的课程项目。 该项目是科学论文“基于加权BERT模式的文本文档聚类方法”的修改实施。 您可以找到一个摘要和一个笔记本,其中包括该项目中进行的过期代码的实现。
2022-06-23 21:57:04 1KB
1
科学路径 通过整合途径改善单细胞RNA-seq聚类 内容描述 我们设计了一个框架(sciPath),以通过整合途径来研究现有单细胞聚类的准确性和鲁棒性,包括10种最新的单细胞聚类方法和4种途径数据库,途径整合方法和一套完整的评估指标。 准备工作 1.数据集演示数据集保存在".//Demo_data" ,包括scRNA-seq矩阵(".//Demo_data//matrix") ,路径(".//Demo_data//pathway")和单元格标签(".//Demo_data//label") 。 2.软件包安装脱机软件包和联机软件包的安装代码保存在".//package//package_install.R" 。 代号 1. clustering_by_gene_only.R 仅考虑基因水平信息的单细胞聚类,包括(1)K均值,(2)分级,(3)光谱,(4)DBSCAN,(5)SC3,(6)
2022-06-23 17:08:04 23.76MB Python
1
基于改进聚类算法的Android平台入侵检测的研究与应用.pdf
2022-06-23 13:07:05 1.63MB 基于改进聚类算法的Android
基于相似度聚类的Android异常检测.pdf
2022-06-23 13:07:01 7.36MB 基于相似度聚类的Android异
短文本聚类在数据挖掘中发挥着重要的作用,传统的短文本聚类模型存在维度高、数据稀疏和缺乏语义信息等问题,针对互联网短文本特征稀疏、语义存在奇异性和动态性而导致的短文本聚类性能较差的问题,提出了一种基于特征词向量的文本表示和基于特征词移动距离的短文本聚类算法。首先使用Skip-gram模型(Continuous Skip-gram Model)在大规模语料中训练得到表示特征词语义的词向量;然后利用欧式距离计算特征词相似度,引入EMD(Earth Mover's Distance)来计算短文本间的相似度;最后将其应用到Kmeans聚类算法中实现短文本聚类。在3个数据集上进行的评测结果表明,效果优于传统的聚类算法。
2022-06-23 11:19:25 1.18MB 短文本; EMD距离; 词向量; 相似度计算;
1
利用多元线性回归对交通流进行学习和预测,利用主成分分析进行数据压缩,利用多种聚类方法对于数据进行聚类
2022-06-22 15:02:19 2.94MB 回归聚类压缩
1
句子相似度簇 sensim_cluster使用Levenshtein距离计算文本数据(来自文件)的相似度,并对结果进行聚类(分层聚类)。 聚类结果以树状图显示。 用法 准备数据文件 在下面运行该程序 # -*- coding: utf-8 -*- import sys from sensim_cluster . sensim_cluster import SensimCluster from matplotlib import pyplot as plt from scipy . cluster . hierarchy import dendrogram cluster = SensimCluster ( 'YOUR_DATAFILE_PATH' ) ids = cluster . get_ids () result = cluster . ward () mod_ids = [ id [
1
用R语言实现多种聚类方法,包括k-means聚类,pamk聚类,层次聚类,基于密度的dbscan算法的聚类
2022-06-21 20:13:42 1.39MB 聚类分析
1
《 2020年报告》首次通过主观幸福感对全球城市进行排名,并更深入地探讨了社会,城市和自然环境如何结合在一起影响我们的幸福。幸福分数和排名使用盖洛普世界民意调查的数据。分数基于对民意调查中提出的主要生活评估问题的答案。分数来自2015-2020年全国代表性的样本,并使用盖洛普权重使估算值具有代表性。幸福评分后面的各栏估算了六个因素(经济生产,社会支持,预期寿命,自由,没有腐败和慷慨)中每个因素在何种程度上有助于使每个国家的生活评价高于反乌托邦,一个假设的国家,其六个因素的价值均等于世界最低的国家平均值。
2022-06-21 14:02:15 66KB 数据分析 聚类 文档资料 数据挖掘
1