Python 58同城房价bs4 beautiful soup爬虫获取 room_name room_type room_area room_addr0 room_addr1 room_price房价名称类型面积地址价格等 jieba中文分词 tf-idf向量化 kmeans聚类 浏览器多页爬虫 jupyter notebook numpy pandas sklearn 数据分析 数据挖掘
2023-02-22 22:22:27 113KB jieba NLP 爬虫 kmeans
1
这个代码主要是介绍了python使用kmeans算法来对图像中的像素进行聚类。整个kmeans算法为手动实现,不调用sklearn库。一共使用了两种方法,其中方法a.py使用了三通道像素值rgb共三个特征,方法b.py使用了rgb+像素坐标xy共5个特征。
2023-02-01 15:54:08 767KB kmeans算法 机器视觉 机器学习
1
kmeans 聚类问题实例,用kmeans聚类算法将数据分成三类,实现三分类问题,并将分类结果进行储存
2023-01-14 12:19:09 2KB 机器学习
1
kmeans 分析matlab代码K均值聚类 这是K-means算法在MATLAB和Python中的简单实现 K-means 聚类是一种矢量量化方法,最初来自信号处理,在数据挖掘中流行用于聚类分析。 k-means聚类旨在将n个观测值划分为k个簇,其中每个观测值都属于具有最近均值的簇,作为簇的原型。 这导致将数据空间划分为 Voronoi 单元。 该代码实现了 K-means 算法并在一个简单的 2D 数据集上对其进行了测试。 例子 在这个例子中,我们首先从三个正态分布生成一个点数据集并标记数据集。 这个带有正确标签的数据集是我们的真实值。 然后我们重新调整标签并为新数据集运行 k-means 算法。 该算法正确地对数据集进行聚类,并估计聚类的中心。 在最后一步,我们将我们的结果与 Mathworks 实现的 k-means 的结果进行比较。 结果 我在我的机器上得到的结果如下: iteration: 1, error: 1.8122, mu1: [-0.2165 4.0360], mu2: [4.2571 0.0152], mu3: [-1.1291 -3.0925] iterati
2023-01-12 08:52:42 86KB 系统开源
1
txt文件——用制表符做为分隔符的txt文件,文件名为protein.txt。数据内容主要 描述的是欧洲蛋白质消费数据(Protein Consumption in Europe)。 Protein数据集给出了欧洲25个国家对9类食物的消费数据,由25行10列构成 每一行记录代表的是一个国家的蛋白质消费数据;
2022-12-30 16:45:26 1KB kmeans算法 机器学习
1
算法原理:1.K-means算法以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。 2.DBSCAN算法将具有足够密度的区域划分为簇,并在具有噪声的空间数据库中发现任意形状的簇,它将簇定义为密度相连的点的最大集合。 算法功能:通过以上两种方法对图像实现聚类(无监督学习),并比较其区别。
2022-12-26 19:31:27 983KB 人工智能 聚类 kmeans算法 dbscan算法
1
Kmeans-python
2022-12-09 09:14:13 85KB Python
1
matlab聚类kmeans代码 作业7 要求 在MapReduce上实现K-Means算法并在小数据集上测试。可以使用附件的数据集,也可以随机生成若干散点的二维数据(x, y)。设置不同的K值和迭代次数,可视化聚类结果。 提交要求同作业5,附上可视化截图。 实现思路 我直接使用了实例代码来运行,用原来的代码创建maven项目KMeansExample。由于原来的代码不是用maven管理的,而且是基于Hadoop1.2编写的程序,所以有一些地方需要进行小小的修改。比如每个java文件前面都要加上对应的包名称,Job对象的创建需要调用getInstance静态方法,而不能直接new Job。 我尝试研读了整个算法的代码,下面简要描述一下示例代码的思路。 主程序:KMeansDriver.main() KMeansDriver.main()方法是整个算法的主程序,它从命令行接收指定的参数k(需要聚成的类数),iterationNum(迭代次数),inputpath,outputpath。依次调用三个主要的过程: generateInitialCluster():随机产生k个cluster
2022-12-07 18:05:50 1.23MB 系统开源
1
official_classification.py : 使用了较多的sklearn中提供的聚类函数 self_classification.py : 使用了较多的手写聚类函数(手写高斯聚类由于计算高维矩阵n次方报错,就没有使用) 两者可以相互比较看手写函数效果如何。 model.py : 其中包含了kmeans,lvq,mixture-of-gaussian聚类函数,以及计算精度和NMI的手写函数,处理标签映射的匈牙利算法。 由于学习向量量化是依据ground truth的得到的一组原型向量,是有监督的学习,因此计算其精度没有意义,在函数里就没有计算精度和NMI,只打印出了原型向量 函数运行时会有warning,不用在意,手写的函数没有优化,速度较慢 代码对三个数据集,分别使用了kmeans,lvq,mixture-of-gaussian三个方法,在得到预测标签后,采用匈牙利算法对标签进行处理,计算其精确度acc和标准互信息nmi 这三种方法聚类的精度只有百分之五十几,在数据集yale中效果较差 运行方法: 安装相应需求的库,直接运行official_classifica
2022-11-30 03:22:26 6.04MB kmeans 支持向量量化 高斯聚类
1
Python实现K-Means聚类后的二维可视化,使用的是生成数据,编译器为jupyter notebook 简单便捷,易于理解 使用库:pandas ,numpy ,sklearn,matplotlib,seaborn
2022-11-23 12:25:32 155KB 可视化 kmeans算法
1