文本挖掘系统 系统说明 集成了文本过滤,去重及邮件实时通知的功能 集成了文本关键字提取的功能 集成了文本分类即打标签的功能 集成了文本推荐即景点评价的功能 支持中英文 系统架构图 关于分词 英文分词,采用nltk工具包进行分词 pip install nltk 中文分词,采用jieba工具包进行分词 pip install jieba jieba分词 dict 主词典文件 user_dict 用户词典文件,即分词白名单 user_dict为分词白名单 如果添加的过滤词(包括黑名单和白名单)无法正确被jieba正确分词,则需要添加的单词和词频加入到主字典dict文件中或者用户词典user_dict,一行一个(词频也可省略) 关于停用词,黑名单,白名单 stopwords为停用词 可以随时添加重启的单词,一行一个 blackwords为过滤词黑名单 可以随时添加过滤的单词,一行一个 writ
2021-10-04 14:35:20 3.29MB 系统开源
1
北京大学计算机科学技术研究所文本挖掘研究生课程,包含17个子文件,有特征提取、检索、分类、聚类、TDT、过滤、关联等
2021-10-01 23:09:33 37.06MB 文本挖掘
1
基于SO-PMI算法的情感极性判别代码,有注释容易理解。针对2元词组共现频率为0的情况,参照论文设置了goodturing平滑和laplace平滑方法。论文可以自己去知网搜索。运行速度慢,建议训练数据不要超过80000条。
1
教授的文本挖掘技术课程ppt 包含文本情感分析 特征提取
2021-09-22 11:16:30 23.62MB 自然语言处理 nlp 文本挖掘
1
行业制造-电动装置-基于余弦相似度文本挖掘算法的客服重复来电处理方法.zip
文本挖掘与社会网络分析课程教材,内容包括文本处理、文本分析、信息检索系统、文本分类、文本聚类、矩阵分解与话题模型、文本情感分析、知识图谱、社会网络分析理论、Gephi可视化、社会网络分析实践与案例。
2021-09-03 22:38:12 6.53MB 文本挖掘 社会网络分析
1
2021泰迪杯C2-基于文本挖掘的旅游目的地印象分析.pdf
基于Spark的Web文本挖掘系统的研究与实现-beta2 - 副本-论文.zip
2021-08-18 18:04:33 357KB 论文
【2017年首开福利,预祝今年好运!!!】本书重点阐释自动化数据抓取和分析技术,适用于初中级用户。作者以简洁的代码、详细的讲解以及真实的案例,分析了大数据在社会科学领域的运用。作者尽可能回避晦涩的术语和高深的理论,通过非常实用的组件探讨很多有趣的实际问题。这种深入浅出的讲解方式有利于我们快速上手,在循序渐进中学习,并能把学到的技术应用到实际研究项目中。本书由资深社会科学家撰写,从社会科学研究角度系统且深入阐释利用R语言进行自动化数据抓取和分析的工具、方法、原则和*佳实践。作者深入剖析自动化数据抓取和分析各个层面的问题,从网络和数据技术到网络抓取和文本挖掘的实用工具箱,重点阐释利用R语言进行自动化数据抓取和分析,能为社会科学研究者与开发人员设计、开发、维护和优化自动化数据抓取和分析提供有效指导。
2021-08-17 11:00:38 71.06MB R语言 数据收集 网络抓取 文本挖掘
1
第一章:引言(2学时) 第二章:文本特征提取技术(4学时) 第三章:文本检索技术(6学时) 第四章:文本自动分类技术(3学时) 第五章:文本自动聚类技术(3学时) 第六章:话题检测与追踪(3学时) 第七章:文本过滤技术(1.5学时) 第八章:关联分析技术(1.5学时) 第九章:文档自动摘要技术(3学时) 第十章:信息抽取(3学时) 第十一章:智能问答(QA)技术(1.5学时) 第十二章:Ontology(1.5学时) 第十三章:半结构化文本挖掘方法(1.5学时) 第十四章:文本挖掘工具与应用(1.5学时)