成语词典(13000个),汉语词典(20905个),英语词典数据库(36672个)
2019-12-21 20:21:24 4.13MB 成语大全
1
以往网上的示例大部分以汉字"啊芭擦......."分别为ABC......等拼音的边界来处理,后来我发现有大部分汉字都返回不了,或返回不正确(如“诤”、“诃”、“陧”等等均返回A); 本示例解决了这一问题,经过将所有汉字ASCII码进行详细分析、研究最终找到有3008个汉字为非标准,并特别做了专门的处理;
2019-12-21 20:21:04 10KB 获取 VFP 汉语拼音首字母 简拼
1
汉语语料库,包含9000多个文本,涵盖新闻、论文、散文、小说等多种类型的文本,经过了分词和词性标注的精加工。
2019-12-21 20:13:19 31.68MB 语料库
1
15万汉字字典有解释 mdb数据库格式 可以用作分词匹配
2019-12-21 20:00:42 32.22MB 汉语字典
1
常用中文词库,最短一个字,最长15个字,包括专用名称和常用短句,可用于输入法编码、汉语词典等用途。
2019-12-21 19:53:12 698KB 汉语词库
1
3500现代汉语常用字表+7000现代汉语通用字表+2984个繁体字
2019-12-21 19:50:53 47KB 汉语字表
1
CTB6汉语分词语料库,可以拿来做分词任务。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
2019-12-21 19:47:41 6.3MB 自然语言处理 分词 语料库
1
基于最大熵模型的汉语词义消歧与标注方法,自然语言处理
2019-12-21 19:42:28 1015KB 自然语言处理
1
常用近、反义词数据库,包含5246个词条,常用词条一应俱全。
2019-12-21 19:41:51 536KB 近义词 反义词 词库 汉语
1
语音识别技术的第一步是将连续的声音切片,这个代码用了最简单粗暴的方法,根据音量的大小,简单切分,前提是要知道这段语音中包含了多少个字。可以支撑不同采样率,不同位数,不同声道的各种WAV格式。
2019-12-21 19:38:08 95KB WAV
1