jieba分词是目前最好的 python中文分词组件。在讲解jieba分词之前,我们先了解一下中文分词的一些概念:
最常用的TF-IDF
什么是TF-IDF呢?要分成2个部分来理解。
TF,词频——一个词在文章中出现的次数
IDF,在词频的基础上,赋予每个词一个权重,体现该词的重要性。
这是什么意思呢?我们来看个例子。
这是一条财经类新闻
上周 / 沉寂 / 一段 / 时间 / 的 / 白酒股 / 卷土重来 / ;/ 其中 / 古井贡酒 / 的 / 股价 / 创出 / 了 / 历史新高 / , / 这段 / 时间 / ……
…
在这篇文章中
上周:出现 1 次
时间:出现 2 次
白酒股:出现
1