【摘要】 文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、算法和评测等方面对其研究进展进行综述评论.认为非线性、数据集偏斜、标注瓶颈、多层分类、算法的扩展性及Web页分类等问题是目前文本分类研究的关键问题,并讨论了这些问题可能采取的方法.最后对研究的方向进行了展望. 【Abstract】 In recent years, there have been extensive studies and rapid progresses in automatic text categorization, which is one of the hotspots and key techniques in the information retrieval and data mining field. Highlighting the state-of-art challenging issues and research trends for content information processing of Internet and other complex applications, this paper presents a survey on the up-to-date development in text categorization based on machine learning, including model, algorithm and evaluation. It is pointed out that problems such as nonlinearity, skewed data distribution, labeling bottleneck, hierarchical categorization, scalability of algorithms and categorization of Web pages are the key problems to the study of text categorization. Possible solutions to these problems are also discussed respectively. Finally, some future directions of research are given. 还原
1
环境科学中的机器学习方法 神经网络与核方法.doc
大数据-算法-非平衡数据下的核方法分.pdf
2022-05-03 14:10:08 2.07MB 算法 big data 文档资料
Pse-Analysis:基于伪成分和核方法的用于DNA / RNA和蛋白质/肽序列分析的Python软件包
2022-04-05 20:50:36 1.14MB 研究论文
1
介绍了Copula函数的基本定义和性质以及非参数统计中的核估计方法,运用核估计方法来估计Copula函数,应用核估计的性质证明了估计出的Copula函数是真实Copula函数的一致强相合。
2022-03-13 19:25:38 672KB 自然科学 论文
1
随机傅立叶特征 该存储库提供Python模块rfflearn ,该模块是用于内核方法的随机傅立叶特征[1,2]的库,如支持向量机和高斯过程模型。 该模块的功能包括: 模块的接口非常接近 , 支持向量分类器和高斯进程回归器/分类器,提供CPU / GPU训练和推理, 与接口,可更轻松地进行超参数调整, 该存储库提供了,该显示RFF对于实际的机器学习任务很有用。 现在,此模块支持以下方法: 方法 CPU支援 GPU支持 典型相关分析 rfflearn.cpu.RFFCCA -- 高斯过程回归 rfflearn.cpu.RFFGPR rfflearn.gpu.RFFGPR 高斯过程分类 rfflearn.cpu.RFFGPC rfflearn.gpu.RFFGPC 主成分分析 rfflearn.cpu.RFFPCA rfflearn.gpu.RFFPCA 回归 rff
1
本书详细介绍基于核的模式分析的基本概念及其应用,主要内容包括:主要理论基础,若干基于核的算法,从最简单的到较复杂的系统,例如核偏序最小二乘法、典型相关分析、支持向量机、主成分分析等。还描述了若干核函数,从基本的例子到高等递归核函数,从生成模型导出的核函数(如HMM)到基于动态规划的串匹配核函数,以及用于处理文本文档的特殊核函数等。一本很好的工具书。
2022-01-02 22:58:32 29.34MB 核方法
1
2010年全国优博提名奖得主,对雷达成像研究方面有很大的借鉴意义
2021-12-10 16:38:16 5.9MB 雷达 目标识别
1
main_klrr.m是调用的代码,KLRR.m是核低秩代码实现,然后DATA目录下为选用的数据,utils目录下为工具类,可能有多余的代码,utils中除了LOADDATA代码是我写的之外,其他全是从cai deng以及lrr中收集的。
2021-10-20 17:35:40 17.32MB 低秩表示 核方法
1
基于核方法的乳腺结节计算机辅助诊断的研究.docx
2021-10-08 23:11:39 23KB C语言