分词学习(3),基于ngram语言模型的n元分词-附件资源
2021-10-14 17:56:05 106B
1
除了crf+ngram这种基于统计纠错的方法外还有一种基于深度学习的seq2seq方法,有简单的注释,有训练集和测试集数据,属于很基础的模型。
2021-05-03 09:01:48 4.54MB nlp crf ngram
1
在过去几个世纪的话流行的变化 版本1.1中的新增功能:*现在您可以通过用逗号分隔短语来比较短语*可以将开始年份设置为1500或1800 *删除了不必要的权限*更好的代码隐藏在我的眼里,我不敢相信类似的东西已经被制造出来了。 甚至不是Google(数据的所有者)。 因此,我将其作为个人用途使用; 认为其他人可能会觉得有用,所以我分享了它。 我们非常欢迎您通过建议代码,发送反馈等方式做出贡献。此工具不需要任何特殊权限或类似的权限。 该扩展程序不会从您那里收集任何数据。 自由使用。 该代码不可能比这更简单。 该工具的作用只是将您连接到“ Google Ngram Viewer”,该工具可查看给定单词的使用在过去如何增加或减少。 作为以英语为第二语言的人,我使用Ngrams的个人目的一直是检查我正在学习的新单词。 有时,单词很快就会过时; 在这种情况下,为了更好地选择单词,最好使用同义词。 该工具的快捷键是Alt + N。 打开它时,键入单词(您也可以键入单词组合和名称),然后按Enter。 ****************************************************** *********引用Google Ngram Viewer的常见问题解答:“我正在根据您的结果撰写论文。我如何引用您的工作?如果您要将这些数据用于学术出版物,请引用原始论文:Jean-Baptiste Michel *,Yuan Kui Shen,Aviva Presser Aiden,Adrian Veres,Matthew K.Gray,William Brockman,Google图书团队,Joseph P.Pickett,Dale Hoiberg,Dan Clancy,Peter Norvig,Jon Orwant,Steven Pinker,Martin A. Nowak和Erez Lieberman Aiden *。使用数百万本数字化图书对文化进行的定量分析。科学(在线印刷,出版时间:2010年12月16日) -语音标记:Yuri Lin,Jean-Baptiste Michel,Erez Lieberman Aiden,Jon Orwant,William Brockman,Slav Petrov。Google图书Ngram语料库的句法注释。计算语言学协会第50届年会论文集第2卷:演示我要发表的论文(ACL '12)(2012) 我的书/杂志/博客/演示文稿中的Ngram图。 您的许可条款是什么? Ngram Viewer图形和数据可以自由地用于任何目的,尽管感谢Google Books Ngram Viewer作为源,并包含指向http://books.google.com/ngrams的链接。” ****************************************************** ********* Copyleft 2014-15。所有错误均保留给开发人员:) 支持语言:English
2021-03-15 16:11:40 103KB 无障碍
1
基于MP最大概率的Ngram汉语切分(北邮计算机语言学基础) 有简洁的说明文档和python源代码
2020-04-04 17:28:20 654KB Ngram 切分 北邮 计算机语言学
1
SRILM源代码阅读笔记。 主要针对SRILM的ngram的训练,即ngram-count。 7个文件: 1.类图.jpg:与ngram-count相关的主要类的静态图(使用了starUML的逆向工程工具); 2.ngram-count.jpg:从语料训练出模型的主要流程; 3.lmstats.countfile.jpg:ngram-count的子流程,用于构建词汇表和统计ngram的频度; 4.ngram.estimate.jpg:ngram-count的子流程,在词汇表和ngram频度的基础上计算ngram条件概率 以及backoff权值的过程; 5.ngram.read.jpg:与训练无关,读取ARPA格式的语言模型的过程; 6.SRILM.uml:以上5个文件的原始图,以StarUML绘制(利用StarUML可直接编辑) 7.SRILM.vsd:ngram-count相关的主要数据结构的内存布局 + ngram条件概率计算公式的参数说明, 以visio绘制(利用visio可直接编辑)
2020-01-03 11:44:02 4.87MB SRILM 源代码 分析 ngram
1
该程序调用IKAnalyzer3.2.3.jar提供的接口实现了对汉字词的简单分词,目前尚不支持对带有标点符号的段落的解析。
2019-12-21 19:39:47 6KB Ngram java 分词
1