上传者: 38653691
|
上传时间: 2023-04-12 21:05:33
|
文件大小: 131KB
|
文件类型: PDF
1 TF-IDF
TF-IDF是英文Term Frequency–Inverse Document Frequency的缩写,中文叫做词频-逆文档频率。
一个用户问题与一个标准问题的TF-IDF相似度,是将用户问题中每一词与标准问题计算得到的TF-IDF值求和。计算公式如下:
TF-IDF算法,计算较快,但是存在着缺点,由于它只考虑词频的因素,没有体现出词汇在文中上下文的地位,因此不能够很好的突出语义信息。
import numpy as np
class TF_IDF_Model(object):
def __init__(self, documents_list):