易语言过滤重复文本源码,过滤重复文本,重复文本过滤
1
第一章:引言(2学时) 第二章:文本特征提取技术(4学时) 第三章:文本检索技术(6学时) 第四章:文本自动分类技术(3学时) 第五章:文本自动聚类技术(3学时) 第六章:话题检测与追踪(3学时) 第七章:文本过滤技术(1.5学时) 第八章:关联分析技术(1.5学时) 第九章:文档自动摘要技术(3学时) 第十章:信息抽取(3学时) 第十一章:智能问答(QA)技术(1.5学时) 第十二章:Ontology(1.5学时) 第十三章:半结构化文本挖掘方法(1.5学时) 第十四章:文本挖掘工具与应用(1.5学时)
从微博中准确而高效地挖掘出突发事件是近年来的研究热点。通过词频统计、词增长率计算和 TF - PDF 算法抽取突发词集,使用突发词表示文本并结合微博突发事件的描述特征进行文本过滤; 提出一种“绝对聚类”算 法,对描述突发事件的文本进行聚类,并通过微博的回复数和转发数加权计算热度,检测各类事件中热度最大的 作为突发事件。检测准确率为 92. 60% ,召回率为 85. 51% ,F 值为 0. 89。实验结果表明,相比于传统的突发事件 检测方法,该方法能够比较准确地检测到微博中的突发事件,有一定的应用价值。
2021-07-28 16:46:44 499KB 突发事件 文本过滤 绝对聚类 突发词
1
1.对任一文件的裁剪。 2.往任一文件的头/尾拼接指定字符串。 3.文本过滤。根据自己制定的规则,过滤掉指定的文字。 4.工具的介绍地址:http://blog.csdn.net/sonnyching/article/details/54744023
2021-05-08 08:35:13 27KB java 文本过滤 文件切割
1
过滤txt中不想要的部分,比如一些广告什么的
2019-12-21 19:32:43 158KB txt 文本过滤 txt文本过滤器 txt过滤
1