机器人对话语料库,苦苦收集而来,希望可以帮助大家,谢谢支持
2019-12-21 19:38:26 106.16MB 图灵对话 机器人对话 语料库 聊天语料
1
中文词库素材词汇量超过10万+语料库语料库包含200个已分类的语料。是以前做分本分类搜集来的,供从事这方面的朋友学习借鉴
2019-12-21 19:38:19 2.39MB 语料库;词库素材
1
AntConc 开始是作为相对简单的索引程序,不过慢慢地进步成一个相对有用的文本分析工具。它是在 ActiveState 供应商的优良Komodo 跨平台支持多种程序软件的开发环境下用Perl5.8 程序语言写成的。这 个程序只要双击可执行文件就可以打开,这个文件可以从Laurence Anthony 实验室网站下载。这个程序可 以在任何窗口环境下运行,包括Win 98/Me/2000/NT and XP, and also Macintosh OSX and Linux 的电脑。
2019-12-21 19:36:54 3.43MB 语料库 教学
1
《中英平行语料库:构建智能语言处理的基石》 在信息技术日益发达的今天,自然语言处理(NLP)已经成为了人工智能领域的一个重要分支。其中,中英平行语料库作为NLP研究的核心资源,对于提升机器翻译、问答系统等模型的性能起到了至关重要的作用。本文将详细探讨中英平行语料库的内涵、应用价值以及其在预处理过程中的关键角色。 理解什么是中英平行语料库。平行语料库,顾名思义,是指包含两种或多种语言对应文本的数据库,其中每段文本在内容上都是对齐的。在本例中,我们特别关注的是中英文平行语料库,即每条中文句子都有对应的英文翻译。这种语料库的构建旨在为跨语言的研究和开发提供基础数据,如机器翻译系统,它们需要大量准确的双语对照数据来学习语言间的转换规则。 中英平行语料库的主要应用包括: 1. **机器翻译**:机器翻译(Machine Translation, MT)系统依赖于大量的平行语料进行训练,以学习不同语言之间的语义和句法对应关系。通过对比学习,模型能够掌握不同语言的表达习惯,提高翻译质量。例如,Google Translate等在线翻译工具就广泛使用了此类语料库。 2. **问答系统**:问答系统(Question Answering, QA)需要理解用户的问题并给出准确答案。中英平行语料库可以帮助模型理解中文问题的含义,并找到对应的英文答案,这对于跨国交流尤其有价值。 3. **自然语言理解**:平行语料库能帮助模型学习两种语言的相似性和差异性,提升对语言的理解能力,比如词性标注、命名实体识别、情感分析等任务。 4. **语料库构建与评估**:平行语料库常被用来评估新模型的性能,因为我们可以直接比较模型生成的翻译结果与原始的参考翻译。 回到给定的压缩包,"一万句对齐中英文平行语料库(不需要加工)",这意味着它已经过预处理,可以直接用于训练和评估模型。预处理通常包括去除噪声数据、标准化文本、对齐句子等步骤,确保语料的质量和可用性。对于研究者来说,这样的资源省去了大量数据清洗的工作,可以直接投入模型的训练,极大地提高了效率。 总结来说,中英平行语料库是推动跨语言智能应用发展的关键,从机器翻译到问答系统,它们无处不在。对于科研人员和开发者而言,拥有高质量的平行语料库意味着拥有了强大的工具,可以构建更加智能、精准的语言处理模型,促进全球信息交流的无障碍化。
2019-12-21 19:36:25 1.01MB 中英平行语料
1
LOB语料库 创建时间: 1970年代初 创建单位:英国Lancaster大学和挪威Oslo大学以及Bergen大学 规模层级: 100万词次 基本情况:研究当代英国英语,与美国英语对比,使用了TAGIT系统,以统计方式建立换算几率矩阵,提高标注正确率。 The Lancaster-Oslo Bergen Corpus (LOB) was compiled by researchers in Lancaster, Oslo and Bergen. It consists of one million words of British En glish texts from 1961. The texts for the corpus were sampled from 15 different text categories. Each text is just over 2.000 words long (longer texts have b een cut at the first sentence boundary after 2.000 words) and the number of texts in each category varies (see table below). Further information about the t exts can be found in the LOB manual (external link). This corpus is the British counterpart of the Brown Corpus of American English. which contains texts printed in the same year so that comparison bet ween both varieties could be made
2019-12-21 19:33:16 94.94MB LOB语料库 英语语料库
1
GENIA语料库是为GENIA项目编写并标注的最初的生物医学文献集合。这个语料库是为了发展和评估分子生物学信息检索及文本挖掘系统而创建的。这个语料库包含1999条Medline的摘要,这些摘要是由PubMed按照human、blood cells以及transcription factors三个医学主题词(medical subject heading terms )为搜索条件搜索到的。这个语料库已经被按照不同级别的语言信息、语义信息进行标注。
2019-12-21 19:26:10 4.55MB 实体识别
1
数据挖掘文本分类语料库(中文)-李荣陆老师的一部分资料
2019-12-21 19:24:06 3.82MB 分类语料
1
搜狗语料库,自己用结巴分词分好的。(为什么摘要必须大于50个字)
2019-12-21 19:21:49 16.3MB 语料库;分词
1
1998年1月-6月人民日报语料库,已做词性标记,适用于自然语言处理序列标注等任务,如命名实体识别等,里面包含6个月份
2019-12-21 18:58:10 11.5MB 文本分类语料
1
aiml,中文语料库,从别的地方收集的,提供大家学习用
2019-12-21 18:57:48 1.48MB aiml 语料库 中文语料库
1