本文实例讲述了Python实现简单的文本相似度分析操作。分享给大家供大家参考,具体如下:
学习目标:
1.利用gensim包分析文档相似度
2.使用jieba进行中文分词
3.了解TF-IDF模型
环境:
Python 3.6.0 |Anaconda 4.3.1 (64-bit)
工具:
jupyter notebook
注:为了简化问题,本文没有剔除停用词“stop-word”。实际应用中应该要剔除停用词。
首先引入分词API库jieba、文本相似度库gensim
import jieba
from gensim import corpora,models,similarities
以下
1