语料库语言学是20世纪80年代才崭露头角的一门交叉学科,它研究自然语言文本的采集、存储、加工和统计分析,目的是凭借大规模语料库提供的客观翔实的语言证据来从事语言学研究和指导自然语言信息处理系统的开发。随着互联网的爆炸式增长,中文语料库的规模也随之剧增。语言学的研究面临着各类复杂的海量数据,亟需采用信息化的手段,自动分析相关的语言数据,从而更好地研究并开发使用的自然语言信息处理系统。
2023-05-28 12:53:55 12.97MB 灵玖LJCorpus中文语料库分析软件
1
语言所公开的现代汉语语料库,通过分别查询3500个常用汉字,将所有数据进行清洗去重后的集合。共554026行,解压后约93.8M,带分词和词性标注。
2022-11-28 11:20:25 25.77MB 中文语料库 分词 词性标注 现代汉语
1
LJCorpus中文语料库分析软件 专门针对中文的语料库分析软件
2022-01-21 11:07:37 2.61MB 中文 语料库分析
1
LJCorpus试用版本下载地址 下载地址:http://www.lingjoin.com/download/LJCorpus.rar 介绍: LJCorpus中文语料库分析软件是一套专门针对中文生语料库的加工、抽取、统计与翻译全自动的综合语料分析系统,应用了领先的汉语词法分析技术、新词发现技术、统计挖掘技术以及词语翻译对齐技术,目前,东北师范大学中文系已经成功应用该软件对新加坡的语言进行了分析,极大提高了研究的效率。 LJCorpus中文语料库分析软件的四大功能主要包括: 1. 新词发现: 从给定的大规模文本文件集合中,挖掘出内涵的新词语列表,可以用于用户专业词典的编撰。识别出的新词结果还可以进一步编辑标注,编辑好的新词词典,可以作为专业知识库导入分词词典中,从而提高分词系统的准确度,并适应新的语言变化情况。 2. 分词标注: 对生语料进行分词、自动识别人名地名机构名等未登录词、新词标注以及词性标注。并可在分析过程中,导入用户定义的词典。 3. 统计分析 针对切分标注结果,系统可以自动地进行统计分析,分析结果包括:一元词频统计(统计结果可以按照词频、词语两种方式排序;并给出具体的一元概率)、二元词语转移概率统计(统计两个词左右连接的频次即概率)。 4. 术语翻译 针对常用的术语,系统会自动给出相应的英文解释。 相关链接:LJCorpus中文语料库分析软件使用手册
2022-01-21 10:54:18 12.96MB LJCorpus 中文 语料库 分析软件
1
语料库 中文 中文语料库 复旦大学
2021-12-19 21:28:52 102.41MB 中文 语料库
1
搜狗的新闻中文语料库,可用于word2vec训练用的。。。。。。。。。。。。。。。。。。。。。。。。
2021-12-10 15:34:20 45.5MB 中文语料库
1
维基百科中文语料库,是自然语言处理中常用的一个数据集,里面包含了大量的中文词条,本文件是2020年7月份最新的语料(2)。
2021-12-09 16:40:56 202.99MB 维基百科 中文语料库 数据集
1
分类_分词@12大类5485文本1127万_搜狗.20151022 各种词库 用语分词、词性标注等自然语言处理NLP任务
2021-11-27 20:55:30 8.24MB 词典 分词 语料
1
该数据集为教育培训行业抽象式自动摘要中文语料库。 chinese_abstractive_corpus_datasets.txt
2021-09-14 10:25:49 239B 数据集
1
answer文件夹为测试语料,共9833篇文档;train文件夹为训练语料,共9804篇文档,分为20个类别。训练语料和测试语料基本按照1:1的比例来划分。收集工作花费了不少人力和物力,所以请大家在使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。文件较大(训练测试集压缩包各50多兆)
2021-06-01 19:28:39 105.93MB 机器学习 文本分类 分类语料 中文语料库
1