保险行业语料库 大家称为 看了下您的项目,我觉得这份数据可以用于保险领域的中文问答研究,对于某些问题的翻译很准确,长度扩展的答案翻译就有些不连贯的问题,大体上关键字信息和-华东师范大学 优秀作品! - ,中国东部师范大学 绝对 基线模型 最小批量大小= 100,hidden_​​layers = [100,50],lr = 0.0001。 纪元25,总步数36400,精度0.9031,成本1.056221。 滴水 Python3 + pip install -r Requirements.txt 跑 一个非常简单的网络作为基准模型。 python3 deep_qa_1/network
1
PKU-Chinese-Paraphrase-Corpus 中译名著多译本翻译转述语料。语料仅限于用于科研教学活动。文本著作权归原著者。
2022-08-25 14:20:11 3.03MB
1
布朗语料库是美国英语的首个文本语料库,它取自不同主题的报纸文本、书籍以及政府文件,包含 1,014,312 个单词的它主要用于语言建模。 原始语料库包含手动注释的句子、标记边界和单词类注释,转换的语料库则包含基于布朗语料库 TEI / XML 版本重建的完整文本,并通过 OLiA 连接到用于聚合查询的本体 Word 类中。 该语料库最初由布朗大学语言学系的 W. Nelson Francis 和 HenryKučera 于 1963 – 1964 年发布,相关论文有《Computational Analysis of Present-Day American English》。
2022-07-13 11:04:46 9.09MB 数据集
尽管文本数据激增,但缺乏多应用文本语料库是文本挖掘和自然语言处理尤其是波斯语中的严重瓶颈。 该项目提供了一个新的波斯语新闻文章分析语料库,称为 Persica。 新闻分析包括新闻分类、主题发现和分类、类别分类和更多程序。 处理 NEWS 有特殊要求,首先要有一个有效可靠的语料库来对其进行实验。 请使用此参考引用我们:@inproceedings{eghbalzadeh2012persica, title={Persica: A Persian corpus for multi-purpose text Mining and Natural Language processing}, author={Eghbalzadeh, Hamid and Hosseini, Behrooz and Khadivi, Shahram and Khodabakhsh, Ali}, booktitle={Telecommunications (IST), 2012 Sixth International Symposium on}, pages={1207--1214}, year={2012}, or
2022-06-24 11:08:29 22KB 开源软件
1
中文普通话词典中文词典/中文词典 自述文件:进行中 关于说明/说明 一组免费的中文普通话词典,可与Goldendict等字典软件配合使用。 Todo接下来要做 姓名 笔记 去做 1。 中文单词频率 基于单词语料库和HSK等级 ✓ 2。 让我成为汉字 动画和说明 ✓ 3。 成语 来自免费提供的论文以及免费提供的英语翻译? BCC成语词典-?license (要上传,请添加完整参考)检查法律条款 4, CC-Cedict 带有放大字符 ✓ 5, 手令 使用德语的英语机器翻译(用于cc-cedict中未找到的单词) ✓ 6, 中文语音词典 与注音,拼音和IPA,英语“听起来像”(使用FSI / wiki?),添加GPL音频 (上传) 7 Unihan字符词典(字典) ✓ 8。 词组词典 tatoeba(使用分词)/ CUV圣经(已分段) 9。 习语-斯卡伯
2022-05-21 15:31:08 233.17MB dictionaries dictionary corpus hanzi
1
开源哈萨克语语料库 我们已经从Wikipedia dump( )为哈萨克语构建了语料库。 使用WikiExtractor( )解析数据,然后使用nltk构建n-gram。 总共收集了2100万个单词。 具有将近60万个单词的不同派生词。 链接到语料库
2022-05-10 05:54:10 4KB Python
1
Corpus parallel_corpus_dict: 平行语料相关字典 'simple_jp_zh_proper_noun.txt': 专有词表, 用于平行句判断。 'kanji_hanzi_list.txt': 中日汉字对照表 zh_dict: strokes.txt: (unihan对应的)笔画数, 只有按unicode顺序的笔画数 unihan_strokes.txt: unicode [space] stroke
2022-04-26 21:11:10 226KB 附件源码 文章源码
1
幽默语料库 网站的存储库 批注工具以及提取和分析脚本在存储库中可用。
2022-04-24 13:36:33 7.58MB nlp machine-learning humor corpus
1
PTT 中文语料 嗨,这里是PTT中文语料集,我透过将每篇文章化简为问答配对,其中问题来自文章的标题,而回覆是该篇文章的推文。可惜的是目前这份资料集的噪声还有点大,若您有更好的方法能提取出文章的问答配对,或发现这份资料集有什么能改进的部份,还请与我联系,也祝各位开发顺利:> 资料说明 资料集一共有两份,您可于或是从本专案的data资料夹里取得。 Gossiping-QA-Dataset.txt 搜集了PTT八卦版于2015年至2017年6月的文章,每一行都是一个问答配对,问与答之间以一个tab ( \t )区隔开,比如说 matlab有什麼炫砲一點的圖? 一樣的圖改一改顏色,有點半透明感覺更唬爛炫 有沒有情人節吃什麼cp值最高的八卦 吃屎啊廢話 免費的一餐 姆咪一個人守得住街亭嗎? 引來一堆肥宅穢土轉生 有機會喔 有沒有被落石砸到該反省的八卦 蔡英文執政就故意誇大報導 東森不意外 情人節
2022-04-02 15:40:15 133.63MB chatbot dialog corpus dataset
1
视觉推理的自然语言 该存储库包含 (Suhr等人2017)和 (Suhr和Zhou等人2018)的数据。 视觉推理自然语言语料库的任务是确定关于视觉输入(如图像)的句子是否正确。 该任务的重点是关于对象集,比较和空间关系的推理。 这包括两个数据集:具有合成生成图像的NLVR和包括自然照片的NLVR2。 有关示例和页首横幅,请参见网页: : 如有疑问,请使用“问题”页面,或直接给我们发送电子邮件: 发牌 NLVR(包含合成图像的原始数据集; Suhr等人2017) 继Microsoft COCO( )之后,我们根据CC-BY-4.0( )许可了NLVR数据集(合成生成的图像,结构化表示和注释) )。 NLVR2(具有真实图像的数据集,Suhr和Zhou等人,2018年) 我们已在CC-BY-4.0( )下许可了NLVR2图像的注释(句子和二进制标签)。 我们不授权NL
1