学术搜索是一种行业化的搜索引擎,因其缺乏个性化、智能化的服务,使得用户的学术文献检索效率低下,海量的数字学术资源得不到充分利用。本研究跨语言智能学术搜索系统的设计与实现,旨在让用户可以在尽可能短的时间内找到所需学术资源。系统的几个关键技术包括:研究混合语种文本的分词技术;研究基于机器翻译的跨语言信息检索;研究搜索结果聚类算法在不同语言文本上的性能差异问题;研究基于聚类的个性化信息检索方法以及交互式查询扩展技术。实验测试结果表明:系统具有较好的扩展性,能为用户提供良好的学术检索服务。
1
使用 PHA 方法执行快速层次聚类。 该函数将从输入距离矩阵生成层次聚类树 (Z)。 输出 Z 类似于 Matlab 函数“linkage”的输出。 [主要特征] 1.比matlab联动功能更快。 2. 对混合正态分布的集群具有出色的性能。 3. 生成系统发育树的理想工具。 [参考] 永岗路,易湾。 (2013)。 “PHA:基于快速势的分层凝聚聚类方法,”模式识别,卷。 46(5),第 1227-1239 页。
2023-01-05 14:37:23 2KB matlab
1
视频关键帧聚类方法
2023-01-04 17:17:33 8KB 关键帧
1
基于密度的聚类算法optics(matlab程序)。官方程序,亲测好用,欢迎下载。
2023-01-04 16:56:23 3KB matlab 算法 聚类 开发语言
1
CluStream算法优缺点 优点: 提出了两阶段聚类框架,算法能适应数据流快速、有序无限、单遍扫描的特点。能够发掘数据流潜在的演化特性。 缺点: 1、不能发现任意形状的簇; 2、不能很好地识别离群点; 3、对高维数据聚类质量下降;
2023-01-01 21:09:29 500KB 数据流聚类 Stream CluStream
1
基于主成份分析和聚类分析的各省市自治区汽车工业发展研究,尤号,,汽车工业是一个国家经济的支柱产业。本文通过首先建立一套评价各地区汽车工业发展水平的评价指标体系,然后运用统计分析中的主成
2023-01-01 16:14:56 183KB 首发论文
1
本文于cloud.tencent.com,介绍了典型算法,CLIQUE聚类算法,WaveCluster算法,WaveCluster聚类算法等。俗话说:“物以类聚,人以群分”,在机器学习中,聚类算法是一种无监督分类算法。聚类算法很多,包括基于划分的聚类算法(如:kmeans),基于层次的聚类算法(如:BIRCH),基于密度的聚类算法(如:DBScan),基于网格的聚类算法等等。基于划分和层次聚类方法都无法发现非凸面形状的簇,真正能有效发现任意形状簇的算法是基于密度的算法,但基于密度的算法一般时间复杂度较高,1996年到2000年间,研究数据挖掘的学者们提出了大量基于网格的聚类算法,网格方法可以有
2022-12-30 23:25:13 588KB 基于网格的聚类算法
1
缺陷预测旨在通过从历史缺陷数据中学习来估计软件的可靠性。 缺陷预测方法根据从软件项目中提取的指标来识别软件模块是否容易出现缺陷。 这些度量值(也称为特征)可能涉及不相关和冗余,这将损害缺陷预测方法的性能。 现有工作采用特征选择来预处理缺陷数据以滤除无用的特征。 在本文中,我们提出了一种新颖的特征选择框架MICHAC,它是通过层次聚类聚类通过最大信息系数进行缺陷预测的简称。 MICHAC分为两个主要阶段。 首先,MICHAC利用最大信息系数对候选特征进行排序,以过滤掉不相关的特征;其次,MICHAC通过分层聚集聚类对特征进行分组,并从每个结果组中选择一个特征以去除冗余特征。 我们使用三个具有四个性能指标(精度,召回率,F量度和AUC)的不同分类器,对11个被广泛研究的NASA项目和四个开源AEEEM项目评估了我们提出的方法。 与五种现有方法的比较表明,MICHAC可有效选择缺陷预测中的特征。
2022-12-28 17:17:59 271KB 研究论文
1
针对传统无功电压聚类分区后各分区中枢点较难定量分析确定的问题,从先定量判别出整个电网的中枢节点再完成无功电压分区的角度,提出将电网所有PV节点松弛为PQ节点,由注入电流形式的潮流方程计算出全网电压越限节点,利用越限节点电压与电网其余节点电压间的线性灵敏度不断校正直到全网节点电压不再越限,通过进一步潮流计算校验,确定所有中枢节点。将全网中枢点数目确定为应划分成的分区数,以节点电压与节点注入无功电流之间的线性灵敏度为无功电压标度,建立无功源控制空间,引入云聚类算法,完成全网节点从无功源控制空间向云模型的转换,进而由云发生器完成以所定中枢点为中心的电网所有节点的聚类软划分。IEEE 14、IEEE 30节点输电网络仿真测试结果,验证了所提方法的有效性。
1
聚类马氏距离代码MATLAB SDCOR 用于大规模数据集中局部离群值检测的可扩展的基于密度的聚类 作者: Sayyed-Ahmad Naghavi-Nozad,Maryam Amir Haeri和Gianluigi Folino 目录 抽象的: 本文提出了一种基于批量密度的聚类方法,用于大规模数据集中的局部离群值检测。 与众所周知的假定所有数据都驻留在内存中的传统算法不同,我们提出的方法具有可伸缩性,并且可以在有限的内存缓冲区范围内逐块处理输入数据。 在第一阶段建立一个临时的聚类模型; 然后,通过分析点的连续内存负载来逐步更新它。 随后,在可伸缩聚类结束时,获得原始聚类的近似结构。 最后,通过对整个数据集的另一次扫描并使用适当的标准,将偏远评分分配给称为SDCOR(基于可伸缩密度的​​聚类离群值比率)的每个对象。 对现实生活和综合数据集的评估表明,与需要将所有数据加载到内存中的最著名的传统基于密度的方法相比,该方法具有较低的线性时间复杂度,并且更加有效。 还有一些基于快速距离的方法,这些方法可以对磁盘中驻留的数据执行操作。 框架: 更详细地,所提出的方法包括三个主要阶段。 在第一阶段
2022-12-28 11:42:38 203.7MB 系统开源
1