EM算法是一种非常流行的最大似然估计方法,它是在观测数据为不完整数据时求解最大似然估计的迭代算法,同时也是估计有限混合模型参数的有效算法。 但是,EM算法不能保证找到全局最优解,而且往往容易陷入局部最优解,因此对迭代初始值的确定很敏感。 传统的EM算法随机选择初始值,提出了一种改进的初始值选择方法。 首先,我们使用k-nearest-neighbor方法删除异常值。 其次,使用k均值初始化EM算法。 将该方法与原始随机初始值方法进行比较,数值实验表明,EM算法初始化的参数估计效果明显优于原始EM算法。
1
纳米级 纳米产品量化(nanopq):产品量化(PQ)和优化产品量化(OPQ)的纯实现,以纯python编写,没有任何第三方依赖性。 正在安装 您可以通过pip安装软件包。 该库可在Linux上与Python 3.5+一起使用。 pip install nanopq 例子 import nanopq import numpy as np N , Nt , D = 10000 , 2000 , 128 X = np . random . random (( N , D )). astype ( np . float32 ) # 10,000 128-dim vectors to be indexed Xt = np . random . random (( Nt , D )). astype ( np . float32 ) # 2,000 128-dim vectors for t
1
Kdtree for最近邻居搜索 使用KD树在点云上执行最近邻居搜索。 Main.cpp包括两个测试用例:一个带有bin点云文件,另一个带有自定义2D点云。 建造 g++ -o main main.cpp
2022-02-13 17:08:00 1.15MB C++
1
操作说明: 1、解压下载的CollaborativeFilteringBasedUserCloud压缩文件 2、操作系统中需装java jdk1.7或者以上版本 3、点击start.bat,在运行过程中,会输出评分时间,然后输出用户id进行推荐 4、数据集movielens
1
基于密度的带噪声应用程序空间聚类(DBSCAN) 基于Kd-tree最近邻居搜索的快速dbscan算法 调用方式: double eps = 0.02 ; // radius of searching int minPts = 1 ; // minimus points number Dbscan dbscan = new Dbscan (eps, minPts); List instances = new LinkedList (); instances . add( new Instance ( new double [] { 120.1 , 30.2 }, new Object [] { 1 , 2 , 3 })); instances . add( new I
2021-11-18 09:20:25 34KB Java
1
音乐分类 Matlab工具使用MFCC和K最近邻居算法将音乐分为4种类型。 输入是带有.mp3 / .wav扩展名的音频文件。 ##问题陈述 通过使用监督学习的概念将音频信号分类为不同的预定义流派。 背景技术虽然音乐令人愉悦,但如今互联网上提供的大量内容使音乐的分类成为必然的任务。 音乐以无限的形式出现。 也称为流派。 尽管音乐涵盖了如此广泛的类别,但是某些特征是所有人共有的,而与节奏,艺术家,乐谱等无关。因此,基于特征提取技术,可以将使用的音乐缩减为一组数据点。 ## Dataset在我们之前的摘要中,我们详细介绍了三个不同的数据集,这些数据集都适合我们的机器学习问题。 在这些数据集中,考虑到数据集的大小以及数据集中可用的音频文件的类型后,我们使用GTZAN流派集合作为我们的训练数据集。 我们仅使用现有数据集是因为其具有标准化的性质。 由于问题的性质,创建我们自己的数据集是一项艰巨的
2021-08-27 10:19:29 5.22MB MATLAB
1
改进的共享型最近邻居聚类算法.pdf
2021-08-21 13:03:40 192KB 聚类 算法 数据结构 参考文献
基于用户的协同过滤推荐系统 实现一个简单的基于用户的协作过滤推荐系统,以使用给定的数据预测商品的评分。 该预测将使用k个最近邻居和Pearson相关进行。 最后,使用最近的k个邻居的相似性,预测给定用户对新商品的评分 评分文件格式 输入文件每行包含一个评分事件。 每个分级事件的形式为:user_id \ trating \ tmovie_titleuser_id是仅包含字母数字字符,连字符和空格(无制表符)的字符串。 等级是浮动值0.5、1.0、1.5、2.0、2.5、3.0、3.5、4.0、4.5和5.0之一。 movie_title是一个字符串,其中可能包含空格字符(以分隔单词)。 三个字段(user_id,评价和movie_title)由单个制表符(\ t)分隔。 输入 python Subramanya_Suhas_collabFilter.py rating-datas
2021-04-30 12:02:59 18KB Python
1
hd_knn_tree 使用RStudio对心脏病数据集进行决策树和K最近邻分析。 还要与进行比较,以找出哪种模型可以更好地预测数据集。 使用的技术/框架 Rstudio Rmarkdown 使用的RStudio库 库(caTools) 图书馆(班) 图书馆(kknn) 图书馆(插入符号) 图书馆(ROCR) 库(rpart) 库(rpart.plot) 图书馆(MASS) 图书馆(tidyverse) 图书馆(ggsci) 安装R软件包 rpack <- c("kknn", "caret", "class","caTools", "ROCR", "rpart", "rpart.plot", "MASS", "tidyverse", "ggsci") install.packages(rpack) 数据集 来自UCI的包含76个代表患者状况的属性。 本文的数据集来
2021-03-10 14:09:28 104KB knn decision-tree R
1