提出了一种基于层叠隐马模型的汉语词法分析方法,旨在将汉语分词、词性标注、切分排歧和未登录词识别集 成到一个完整的理论框架中1在分词方面,采取的是基于类的隐马模型,在这层隐马模型中,未登录词和词典中收录的普 通词一样处理1未登录词识别引入了角色HMM:Viterbi算法标注出全局最优的角色序列,然后在角色序列的基础上,识 别出未登录词,并计算出真实的可信度1在切分排歧方面,提出了一种基于N2最短路径的策略,即:在早期阶段召回N 个最佳结果作为候选集,目的是覆盖尽可能多的歧义字段,最终的结果会在未登录词识别和词性标注之后,从N个最有 潜力的候选结果中选优得到1不同层面的实验表明,层叠隐马模型的各个层面对汉语词法分析都发挥了积极的作用1实 现了基于层叠隐马模型的汉语词法分析系统ICTCLAS, 该系统在2002年的“九七三”专家组评测中获得第1名,在2003 年汉语特别兴趣研究组(ACLSpecialInterestGrou ponChineseLan guageProcessing,SIGHAN )组织的第1届国际汉语分 词大赛中综合得分获得两项第1名、一项第2名1这表明:ICTCLAS 是目前最好的汉语词法分析系统之一,层叠隐马模 型能够解决好汉语词法问题.
1
汉语常用字字典《古汉语常用字字典》是1979年商务印书馆出版的图书,作者是王力、岑麒祥、林焘、戴澧、唐作藩、蒋绍愚、张万起、徐敏霞。该书是新中国成立后第一部用现代语言学和辞书学观点、方法编写的古汉语权威字典。
2022-04-21 11:07:17 1.31MB 字典 语料
1
汉语拼音发音口型及配图汉语拼音发音汉语拼音发音口型及配图口型及配图
2022-04-19 19:54:05 24.85MB 汉语拼音发音
1
九种汉语方言的声谱图,包括长沙话,河北话,合肥话,客家话,南昌话,宁夏话,陕西话,上海话,四川话,每种方言1000张png图片,2018科大讯飞方言挑战赛数据集,适合用于方言识别,语种识别模型的训练,更多声谱图资源请点我主页寻找
2022-04-13 17:06:45 190.33MB 方言声谱图数据集
五种汉语方言的声谱图,包括长沙话,河北话,合肥话,客家话,南昌话,每种方言6000张png图片,2018科大讯飞方言挑战赛数据集,适合用于方言识别,语种识别模型的训练,更多声谱图资源请点我主页寻找,使用方法请看我的主页博客,超过1g所以分开发
2022-04-13 17:06:44 655MB 方言声谱图
四种汉语方言的声谱图,包括宁夏话,陕西话,上海话,四川话,每种方言6000张png图片,2018科大讯飞方言语种挑战赛数据集,适合用于方言识别,语种识别模型的训练,更多声谱图资源请点我主页寻找,适合用于大学生大创项目
2022-04-13 17:06:44 485.28MB 方言声谱图数据集
想找有关C++外文翻译的童鞋可以看看 内含俩个doc文件,一个是原文,一个是翻译过后的。
2022-04-13 01:12:30 11KB 外文翻译 C++
1
九种汉语方言的声谱图,包括长沙话,河北话,合肥话,客家话,南昌话,宁夏话,陕西话,上海话,四川话,每种方言250张png图片,2018科大讯飞方言挑战赛数据集,适合用于方言识别,语种识别模型的训练,更多声谱图资源请点我主页寻找
2022-04-12 17:05:47 35.6MB 方言声谱图数据集
1
一种基于N-gram模型和机器学习的汉语分词算法,不错的分词算法。
2022-04-11 11:23:27 1.09MB 汉语分词 n-gram
1
本系统旨在通过对大规模诗词数据进行机器学习,利用RNN循环神经网络将创作古诗的知识融入到模型中,进行古诗的辅助创作。分为如下四个方面: 诗词数据集的预处理:去除前后空白符,转码。单词过滤,获取唐诗中所有的字符,统计其出现的次数。去掉不常见的单词,保留最常见的单词。分割数据。 实现诗歌自动生成:本系统基于深度学习中的循环神经网络(RNN)技术,以TensorFlow为开发环境进行模型设计,以此实现古体诗和藏头诗的自动生成。 图形用户界面设计:采用HTML中的CSS技术进行简单的前端设计,设计出能为用户方便直观的展示诗歌结果的图形用户界面。 对生成的诗进行结果评估:进行人工评价并做问卷调查评价。
2022-04-07 12:05:56 1.38MB 深度学习 诗词自动生成