NLP项目实例,实现一个类似于中文输入法中联想的功能;项目利用深度学习框架Pytorch,构建一个LSTM(也支持NGram,TextCNN,LSTM,BiLSTM等)模型,实现一个简易的中文单词预测(词语预测)功能,该功能可以根据用户输入的中文语句,自动预测(补充)词语;基于该项目训练的中文单词预测(词语预测)模型,在自定义的数据集上Top-1准确率最高可以达到91%左右,Top-5准确率最高可以达到97%左右。博文:https://blog.csdn.net/guyuealian/article/details/128582675
2023-04-18 22:22:20 432B 中文单词预测 LSTM NGram TextCNN
1
ngram是一个模块,用于计算两个字符串之间的相似度。 它与python的“ difflib.SequenceMatcher”不同,因为它更关心两个字符串的大小。 ngram是perl模块的端口和扩展,称为“ String :: Trigram”
2022-11-10 19:54:07 19KB 开源软件
1
文本相似在问答系统中有很重要的应用,如基于知识的问答系统(Knowledge-based QA),基于文档的问答系统(Documen-based QA),以及基于FAQ的问答系统(Community-QA)等。像 对于问题的内容,需要进行相似度匹配,从而选择出与问题最接近,同时最合理的答案。本节介绍 基于ngram-tf-idf的余弦距离计算相似度。 本节将介绍两种实现:基于sklearn  和 基于gensim 基于sklearn的方式如下: import os import re import jieba import pickle import logging import numpy
2022-11-07 10:16:24 30KB df id idf
1
ngram折扣平滑算法.pdf
2022-07-09 19:09:14 94KB 文档资料
脚本 用于检索在 Google Books Ngram Viewer 上绘制的轨迹背后的数据的基本 Python 代码:books.google.com/ngrams。 只需键入与在 books.google.com/ngrams 上键入的字符串完全相同的字符串,然后以 tsv 格式检索数据。 默认情况下,数据打印在屏幕上并保存到当前目录中的文件中。 给精明用户的注意事项: 您可以直接将查询作为参数传递给 python 脚本,例如“python getNgrams.py awesome”或“getNgrams.exe great”。 如果您将 '-quit' 标志作为参数传递,程序将运行一次并退出而不要求更多输入,例如“python getNgrams.py awesome, sauce -quit”。 已知警告:引号已从输入查询中删除。 用法示例: Albert Einst
2022-05-16 19:31:12 3.08MB Python
1
中文预训练词向量北京师范大学中文信息处理研究所与中国人民大学 DBIIR 实验室的研究者开源的"chinese-word-vectors"。github地址为:https://github.com/Embedding/Chinese-Word-Vectors 此中文预训练词向量为知乎Word + Ngram的词向量
2022-03-18 09:38:10 225.28MB 数据集
1
统计语言模型工具有比较多的选择,目前使用比较好的有srilm及kenlm,其中kenlm训练速度也更快,号称单机版训练超级快,支持大规模的语料训练,文件的输入格式一行行以空格隔开的文本。kenlm训练语言模型用的是传统的“统计+平滑”的方法。
2021-11-21 21:05:38 5.91MB ngram kenlm xun
1
ngram-相似性 计算两个文件之间基于 n-gram 的相似度分数。
2021-11-09 19:47:18 9KB Java
1
本人阅读SRILM源代码的笔记,使用starUML及其逆向工程工具绘制。 主要针对SRILM的训练,即ngram-count。 内含5个jpg文件: 1.类图--与ngram-count相关的主要类的静态图; 2.ngram-count--从语料训练出模型的主要流程; 3.lmstats.countfile--ngram-count的子流程,用于构建词汇表和统计ngram的频度 4.ngram.estimate--ngram-count的子流程,在词汇表和ngram频度的基础上计算ngram条件概率以及backoff权值的过程 5.ngram.read--与训练无关,读取ARPA格式的语言模型的过程
2021-10-25 20:55:45 3.95MB SRILM ngram 类图 流程
1
克 得到 。 安装 该软件包仅适用于ESM:需要使用Node 12+才能使用它,并且必须将其import而不是require d。 : npm install n-gram 用 import { bigram , trigram , nGram } from 'n-gram' bigram ( 'n-gram' ) // ['n-', '-g', 'gr', 'ra', 'am'] nGram ( 2 ) ( 'n-gram' ) // ['n-', '-g', 'gr', 'ra', 'am'] trigram ( 'n-gram' ) // ['n-g', '-gr', 'gra', 'ram'] nGram ( 6 ) ( 'n-gram' ) // ['n-gram'] nGram ( 7 ) ( 'n-gram' ) // [] // Anything with a `.
2021-10-19 21:09:56 7KB ngram unigram n-gram pentagram
1