完整带书签,word版,全章节,五分不算多,赚点儿积分
2022-11-29 12:04:04 17.07MB nlp 自然语言处理
1
用于机器阅读理解的藏语数据集
2022-11-24 21:25:18 883KB 机器学习 藏语 nlp
1
FakeNewsCorpus:从精选的数据源列表中抓取的数百万条新闻报道的数据集
1
将下载好的imdb.npz文件放在主目录下的 .keras/datasets文件夹下即可(用于tensorflow学习)
2022-11-20 09:57:58 16.66MB imdb.npz tensorflow NLP
1
本文针对汉语问答技术展开深入研究 [1] 建立了一个具有一定规模并可扩充的汉语问答技术评测平台 [2] 提出了汉语问答系统的提问分类体系及基于多特征的提问分类算法 [3] 设计了基于多特征的汉语命名实体识别算法 [4] 提出了基于主题语言模型的汉语问答系统句子检索算法 [5] 提出了基于无监督学习的问答模式抽取技术
2022-11-17 17:18:31 2.81MB NLP 问答系统 深度学习 
1
自然语言处理大体是从1950年代开始,虽然更早期也有作为。1950年,图灵发表论文“计算机器与智能”,提出现在所谓的“图灵测试”作为判断智能的条件。 1954年的乔治城实验涉及全部自动翻译超过60句俄文成为英文。研究人员声称三到五年之内即可解决机器翻译的问题。[1]不过实际进展远低于预期,1966年的ALPAC报告发现十年研究未达预期目标,机器翻译的研究经费遭到大幅削减。一直到1980年代末期,统计机器翻译系统发展出来,机器翻译的研究才得以更上一层楼。 1960年代发展特别成功的NLP系统包括SHRDLU——一个词汇设限、运作于受限如“积木世界”的一种自然语言系统,以及1964-1966年约瑟夫·维森鲍姆模拟“个人中心治疗”而设计的ELIZA——几乎未运用人类思想和感情的讯息,有时候却能呈现令人讶异地类似人之间的互动。“病人”提出的问题超出ELIZA 极小的知识范围之时,可能会得到空泛的回答。例如问题是“我的头痛”,回答是“为什么说你头痛?
2022-11-16 10:57:40 94.99MB NLP 自然语言处理
1
中华英语 中文的深层上下文单词表示。 本仓库只是输出某些无关的单词嵌入。 依赖 python3 张量流> = 1.10 界坝 使用方法 准备数据,参考data和vocab目录,可用pre_data/vocab.py处理出字典(每个data文件不能太大,否则内存不足) 训练模型train_elmo.py 输出模型dump_weights.py 把options.json里的261改成262 输出单词嵌入到hdf5文件usage_token.py 实验结果 用可视化工具看合理, textmatch任务textmatch AUC 1-2。 执照 麻省理工学院
2022-11-15 21:49:53 3.32MB nlp tensorflow word-embedding wordvectors
1
tomotopy:主题建模工具Tomoto的Python软件包
1
–背景介绍–法律文书处理的应用及技术现状–学术界研究热点–典型技术及应用挑战–总结近年来•ICAIL:InternationalConferenceonArti
2022-11-12 21:17:47 13.44MB NLP
1
高音数据集对性别分类的自然语言处理NLP 借助自然语言处理NLP,我可以从Tweeter数据集中识别性别分类 该文件包含: 加载数据集: 该数据集用于训练CrowdFlower AI性别预测器。 您可以在此处阅读有关该项目的所有信息。 要求参与者仅查看Twitter的个人资料并判断用户是男性,女性还是品牌(非个人)。 数据集包含20,000行,每个行都有一个用户名,一条随机鸣叫,帐户个人资料和图像,位置,甚至是链接和侧边栏颜色。 数据集来自这里: : 灵感 您可以尝试使用此数据集回答以下几个问题: 推文和个人资料中的单词如何预测用户的性别? 用什么词可以强烈预测男性或女性性别? 风格因素(例如链接颜色和侧边栏颜色)如何很好地预测用户的性别? 数据 数据集包含以下字段: unitid:用户的唯一ID _golden:模型的黄金标准中是否包含用户; 对或错 unitsta
2022-11-11 19:02:20 3.03MB JupyterNotebook
1