Python读取小说文本,绘制词云图,主要人物出场次序,社交网络关系图,章回字数,有报告、详细说明和代码注释,有可执行文件.exe
2021-08-05 18:02:39 406.57MB python
中文文本分类的语料库,一共12类,全是txt文本,有电子游戏,科学,农业,社会,生活,娱乐,艺术等等等,还提供同义词词库
2021-07-27 15:00:37 64.2MB 文本分类 中文文本 数据集 NLP
1
主要介绍了Python实现购物评论文本情感分析操作,结合实例形式分析了Python使用中文文本挖掘库snownlp操作中文文本进行感情分析的相关实现技巧与注意事项,需要的朋友可以参考下
2021-07-26 22:33:53 96KB Python 购物评论 文本 情感分析
1
word2vec词向量训练及中文文本相似度计算。 word2vec是google在2013年推出的一个NLP工具,它的特点是将所有的词向量化,这样词与词之间就可以定量的去度量他们之间的关系,挖掘词之间的联系。虽然源码是开源的,但是谷歌的代码库国内无法访问,因此本文的讲解word2vec原理以Github上的word2vec代码为准。本文关注于word2vec的基础知识。
2021-07-25 22:32:13 2.83MB 自然语言处理
1
中文文本相似度匹配算法 simHash 海明距离 IK分词 完整的可运行的示例代码 包含simHash 算法,使用IK 对中文文本进行分词处理
2021-07-23 10:05:18 4.73MB simHash 海明距离 IK分词
1
基于支持向量机、决策树、KNN、随机森林、朴素贝叶斯这几种算法的中文文本分类方法实现,包含语料(训练集、测试集)
2021-07-14 18:07:47 363.63MB 中文文本分类 机器学习 自然语言处理 SVM
1
基于LDA算法的中文文本的主题分析抽取代码实现
2021-07-14 18:07:47 3KB LDA 自然语言处理 主题分析
1
Python+jieba分词库+nltk+sklearn
2021-07-13 11:10:18 7KB python
1
一个文本文件,包含中文停用词集合,对文本处理过程中,方便剔除停用词
2021-07-09 09:11:21 4KB 文本,停用词
1
Scrapy 爬虫 + 数据清理 + 数据分析 + 构建情感分析模型 一、爬取豆瓣Top250的短评数据 movie_item movie_comment movie_people 二、数据清理与特征工程+统计分析 movie_item 总评分最高的前10部电影 最受欢迎的电影类别排名 最受欢迎的电影出品国家排名 最受欢迎的电影导演排名 最受欢迎的电影演员排名 最受欢迎的电影语言排名 根据电影时长的电影排名 根据电影投票数的电影排名 根据电影评价数的电影排名 根据电影提问数的电影排名 根据电影发布时间的规律 1~5星级投票的百分比 电影简介的情感分析 movie_comment 就肖申克的救赎这个电影而言 短评词云 用朴素贝叶斯完成中文文本分类器 用svc完成中文文本分类器 用facebook-fasttext有监督完成中文文本分类 用facebook-fasttext无监督学习 用cnn做中文文本分类 用rnn做中文文本分类 用gru来完成中文文本分类 全部影片的短评数据分析 movie_people 短评人常居地按照国家分布 中国短评人常居地按照省份分布 每个短评人的被关注数与好友数 中国短评人的被关注数和好友数的人均地域分布 根据点评人个人简介构建中文文本分类模型 三、movie_item + movie_comment + movie_people 三个数据集间的协同分析 通过短评来预测被评价电影是什么类型 小结
2021-07-08 15:02:44 73.43MB TOP250 豆瓣电影短评 Scrapy