用于评估检索算法输出的工具
检索范式、相关性和结果文件
检索范式通常预设一组有限的查询,每个查询与一组有限的匹配标记相关联。
检索算法为每个查询返回一个有序列表,表示从最佳匹配到最差匹配的所有标记。
该信息对于评估是必要的。该工具的输入是从两个不同的文本文件中读取的,相关文件和结果文件。
相关文件告诉我们:
我们的查询是什么以及有多少
每个查询实际上与什么匹配标记匹配
结果文件告诉我们:
对于每个查询,从最佳匹配到最差匹配的匹配标记的有序列表是什么
支持的输入文件格式
trec_eval 格式
此格式最初是为与trec_eval评估软件一起使用而引入的。
相关文件
相关文件遵循格式
qid 0 docno rel
对于每个文本行。
上面的行告诉我们,带有 id 的查询qid与 token 匹配docno。查询和每个标记匹配的程度被编码为浮点值rel,取值 in [0, 1]。绝配了rel = 1。
示例相关文件:
cv1 0 tok1 1
cv1 0 tok2 1
cv1 0 tok3 0
cv2 0 tok1 0
cv2 0 tok2 0
cv2 0 tok
2022-06-11 18:06:29
18.28MB
rust
算法