训练n-gram语言模型的工具包含srilm 和 tcl8.6.12.zip
2021-12-07 19:09:55 72.46MB tcl n-gram语言模型 srilm
1
ir-python 用于信息检索任务的python实现,包括正向/反向索引,基本检索模型(例如BM25,uni-gram语言模型)。 索引模块对LevelDB( )使用线程安全的Python绑定。 LevelDB是快速键值存储库。 运行:sh buildIndex.sh tokenize语料库:buildIndex_tokenize.py输入:Robust2004语料库输出:〜/ Documents / ir / Robust2004 / result / tokenize / 从标记化语料库中提取文档信息:buildIndex_extract.py输入:标记化语料库输出:将单词转换为term_ids到文件/doc.extract格式:[doc_id \ t term_id \ t term_tf \ t position_in_doc] 按编号顺序对/doc.extract中
2021-09-03 15:11:40 85KB Python
1
本项目利用python实现N-gram语言模型,采用的平滑算法是Kneser-Ney平滑。
2019-12-21 21:33:06 11.36MB language mod N-gram KN平滑
1