上传者: 38606404
|
上传时间: 2021-11-15 13:05:56
|
文件大小: 84KB
|
文件类型: -
python和jieba库进行简单文本处理之天龙八部小说导入jieba和gensim库数据清洗,处理小说和人物名称文本文章排版分析之统计章标题文章篇章分析之谁是天龙八部小说的主角文章用词分析之出现最多的四字词文本相似度分析结束语
本文会涉及到一些内置函数,正则化表达式,文本写作风格挖掘(排版,篇章,用词),简单的文本相似度比较
本人大一新手一枚≧∇≦,偶然碰到某次作业为简单文本处理,就写了这文章来给需要的小伙伴提供点思路,代码中有许多不足,希望各位大佬可以指正下哈!多谢啦^ _ ^!
天龙八部小说和人物名字txt文本大家可以去网上找,很多热心小伙伴会发的.
导入jieba和gensim库
我一