1 TF-IDF TF-IDF是英文Term Frequency–Inverse Document Frequency的缩写,中文叫做词频-逆文档频率。 一个用户问题与一个标准问题的TF-IDF相似度,是将用户问题中每一词与标准问题计算得到的TF-IDF值求和。计算公式如下: TF-IDF算法,计算较快,但是存在着缺点,由于它只考虑词频的因素,没有体现出词汇在文中上下文的地位,因此不能够很好的突出语义信息。 import numpy as np class TF_IDF_Model(object): def __init__(self, documents_list):
2023-04-12 21:05:33 131KB idf python python算法
1
基于BM25算法的主题模型优化算法,李宇坤,陈光,本文介绍了一种表示和检测微博热点话题的新方法,该方法发现的话题具有更好的可读性和独立性。不同于传统热点话题发现算法,本文��
2022-05-15 22:01:37 523KB 自然语言处理
1
2020年陈竹敏老师教授的信息检索技术的课设解决方案,语言为python,在提供的baseline基础上进行了一定的修改,包括文档预处理(停用词去除,大小写转换)等处理,MMR可达0.5。
2021-11-06 17:51:59 111.47MB 山东大学 信息检索 BM25 源码
1
BM25算法的详细资料,需要的可以参考,比较完整的实现过程。
2021-06-13 13:14:21 42KB BM25算法
1