这是Trigram语言模型的实现。 用法: (先决条件:您需要在计算机上安装python版本3才能运行此程序) 将corpus.zip解压缩(使用“在此处提取”)到项目结构的根目录。 使用python3执行main.py。 (例如:python /main.py) 请按照控制台上的说明进行操作。
2023-05-10 18:48:12 7.06MB Python
1
TED平行语料库是多语言平行语料库,包括多语言并行语料库和单语语料库。从TED会议www.ted.com 提取109种世界语言。 多语言的平行语料库包括 12 种语言超过1.2亿 个对齐句子并进行了句子对齐。 所有的预处理都是自动完成。
2023-04-13 20:23:17 365.48MB 自然语言理解 NLP 机器翻译
1
通过从网页中提取文本来构建用于藏文自然语言处理的大规模文本语料库
2023-04-05 22:54:11 1.5MB 研究论文
1
Gensim数据有什么用? 研究数据集经常消失,随时间变化,变得过时或没有理智的实现来处理数据格式的读取和处理。 因此,Gensim推出了自己的d Gensim数据的用途是什么? 研究数据集经常消失,随时间变化,变得过时或没有理智的实现来处理数据格式的读取和处理。 因此,Gensim推出了自己的数据集存储,致力于提供长期支持,合理的标准化用法API,并专注于非结构化文本处理(无图像或音频)的数据集。 该Gensim数据存储库用作该存储。 您无需直接使用此存储库。 因斯泰
2023-04-04 23:05:25 22KB Python Deep Learning
1
首先,建立自己的语料库 def ylk(x): seg = jieba.cut(x, cut_all=False) with open('D://listTwo.txt', 'a',encoding='utf-8')as f: for word in seg: f.write(word+ ) f.write('\n') 训练模型 from gensim.models.word2vec import LineSentence, Word2Vec #加载语料库 sentences = LineSentence(D://
2023-03-28 10:06:53 33KB c ec OR
1
European Parliament Proceedings Parallel Corpus 1996-2011 数据集是一个用于统计 机器翻译 的语料库,其中 Europarl 平行语料库来源于欧洲议会的程序,它包括 21 种欧洲语言版本: 罗马语(法语,意大利语,西班牙语,葡萄牙语,罗马尼亚语) 日耳曼语(英语,荷兰语,德语,丹麦语,瑞典语) Slavik(保加利亚语,捷克语,波兰语,斯洛伐克语,斯洛文尼亚语) Finni-Ugric(芬兰语,匈牙利语,爱沙尼亚语) 波罗的海语(拉脱维亚语,立陶宛语) 希腊语 European Parliament Proceedings Parallel Corpus 1996-2011 数据集最初由苏格兰爱丁堡大学信息学院于 2005 年发布,主要发布人为 Philipp Koehn。 该数据集于 2012 年发布第 7 版,相关论文有《Europarl: A Parallel Corpus for Statistical Machine Translation》
2023-03-16 22:52:05 39KB 机器翻译语料库
1
用于对文本进行实体识别、语义标注的软件和源码的文档。
2023-03-15 22:29:18 283KB 信息抽取 非结构化 中文 分析
1
中文文本分类语料库
2023-03-04 20:51:30 113.53MB 中文文本分类
1
中文人名语料库(Chinese-Names-Corpus) 业余项目“萌名NameMoe(一个基于语料库技术的取名工具)”的副产品。 萌名手机网页测试版: ,欢迎体验。 不定期更新。只删词,不加词。 可用于中文分词、人名识别。 请勿将本库打包上传其他网站挣积分,已上传的请配合删除,谢谢! 中文常见人名(Chinese_Names_Corpus) 数据大小:120万。 语料来源:从亿级人名语料中提取。 数据清洗:已清洗,但仍存有少量badcase。 新增人名生成器。 中文古代人名(Ancient_Names_Corpus) 数据大小:25万。 语料来源:多个人名词典汇总。 数据清洗:已清洗。 中文姓氏(Chinese_Family_Name) 数据大小:1千。 语料来源:从亿级人名语料中提取。 数据清洗:已清洗。 中文称呼(Chinese_Relationship) 数据大小:5千,称呼词根
2023-02-23 16:26:55 17.62MB corpus names dataset dict
1
是一个由58k条精心挑选的评论组成的语料库,从Reddit网站上提取了27种情绪类别或中性情绪,并配有人工注释。其中包含了训练测试验证分割测试数据集的大小5,427。验证数据集的大小5,426。情感的分类是钦佩、娱乐、愤怒、烦恼、认可、关心、困惑、好奇、渴望、失望、反对、厌恶、尴尬、兴奋、恐惧、感激、悲伤、快乐、爱、紧张、乐观、骄傲、实现、宽慰、悔恨、悲伤、惊讶。
2022-12-18 18:28:28 17.6MB 语料库 数据集 评论 深度学习