当今中国,网民人数已经超过人口总数的一半,因此网络舆情监测具有十分重要的意义。本文首先应用网络爬虫技术实现对新闻报道和对应网民评论文本数据获取。因为数据量大,所以选择Hadoop集群进行文本数据储存。其次,通过中文分词技术对文本数据按词语进行拆分,并对得到的词语进行过滤和挑选,得到关键词。新闻报道文本中获取的关键词用于新闻类型与主题的判别,网民评论中的关键字反映了网民对此新闻报道的观点和态度。最后,应用此方法,对"中美贸易战"事件进行网络舆情监测,从获得的新闻报道主题和网民评论的关键字表明,本文介绍的网络舆情监测方法具有可行性和实用性。
2021-03-28 13:44:13 667KB 行业研究
1
电子病历是医院信息化发展的产物, 其中包含了丰富的医疗信息和临床知识, 是辅助临床决策和药物挖掘等的重要资源.因此, 如何高效地挖掘大量电子病历数据中的信息是一个重要的研究课题.
2021-03-27 22:12:26 846KB 电子病历
1
预测性文本挖掘基础
2021-03-24 14:09:35 64.98MB 算法
1
摘 要:本文爬取豆瓣电影TOP250的榜单电影信息和热评,运用数据可视化和文本挖掘的相关方法和理论对电影进行Knn分类和KMeans聚类以及相关的电影信息分析,并预测了新上映电影的所属类型,画出了相应的混淆矩阵
2021-03-05 22:06:53 893KB python kmeans算法 数据挖掘 数据分析
1
关于酒店评论文本挖掘的全部课程设计报告,含python源代码,包括情感极性分类(SVM),python爬虫酒店评论,LDA主题模型聚类和评论中的关联性分析(运行代码请见主页中对应的资料包)
2021-02-28 21:21:33 2.93MB 文本挖掘 爬虫 LDA 酒店评论情感分类
1
用于解决python安装包时候的“Microsoft Visual C++ 14.0 is required.”的提示错误
2021-02-03 23:45:59 2.78MB python 文本挖掘
1
主要包含搜寻的文本挖掘的期刊论文和毕业论文,总共有43篇,需要写文本挖掘相关论文的的可以下载看看。
2021-01-28 04:28:56 69.34MB 文本挖掘,语言处理,论文,
1
第一章:引言(2学时)  第二章:文本特征提取技术(4学时)  第三章:文本检索技术(6学时)  第四章:文本自动分类技术(3学时)  第五章:文本自动聚类技术(3学时)  第六章:话题检测跟踪技术(3学时)  第七章:文本过滤技术(3学时)  第八章:关联分析技术(1学时)  第九章:文档自动摘要技术(2学时)  第十章:信息抽取(3学时)  第十一章:智能问答(QA)技术(3学时)  第十二章:文本情感分析技术(3学时)  第十三章:Ontology(2学时)  第十四章:半结构化文本挖掘方法(1.5学时)  第十五章:文本挖掘工具与应用(1.5学时)
2020-01-03 11:36:47 23.62MB 文本挖掘 机器学习 自然语言处理
1
比较系统的讲解文本挖掘技术的一些基础知识,有助于帮助理解自然语言处理技术。
2020-01-03 11:35:58 26.23MB 文本挖掘
1
主要包含文本挖掘的期刊论文和毕业论文40多篇,搞自然语言处理的,文本挖掘的可以下载看看。来源于万方,侵删。
2020-01-03 11:23:38 67.93MB nlp 文本挖掘 论文
1