斯坦福问答数据库(The Stanford Question Answering Dataset,简称SQuAD),从 Wikipedia 文章中提取出的问题和答案对,从 500 多篇文章中摘取出的 10 万多个问题和答案。
1
阅读理解数据集SQuAD-V2, 对应的MRC代码可参考https://github.com/shawroad。 实现了很多阅读理解算法。
2022-01-13 15:55:13 9.72MB Squad v2 原始数据集 SQuAD-V2
1
机器学习的双向注意力流 这是的原始实现。 可找到提交的CodaLab工作表。 对于TensorFlow v1.2兼容版本,请参阅分支。 如有问题和建议,请联系 ( )。 0.要求 一般 Python(已在3.5.2。上验证。Python2已报告问题!) 解压缩,wget(仅用于运行download.sh ) Python包 tensorflow(深度学习库,仅适用于r0.11) nltk(NLP工具,已在3.2.1上验证) tqdm(进度条,已在4.7.4上验证) jinja2(用于虚假化;如果只培训和测试,则不需要) 1.预处理 首先,准备数据。 下载SQuAD数据以及GloVe和nltk语料库(〜850 MB,这会将文件下载到$HOME/data ): chmod +x download.sh; ./download.sh 其次,预处理Stanford QA数据集(以及GloVe向量),并将其保存在$PWD/data/squad (约5分钟): python -m squad.prepro 2.培训 该模型具有〜2.5M参数。 该模型由NVidia Titan
2021-12-07 19:10:35 137KB nlp tensorflow question-answering squad
1
匹配LSTM 在这里我们在SQuAD上实现MatchLSTM(Wang and Jiang 2016)模型,R-Net(Wang et al.2017)模型和M-Reader(Hu et al.2017)(Rajpurkar et al.2016)。 也许有些细节与最初的论文有所不同。 要求 python3 水蟒 hdf5 实验 Match-LSTM +模型与Match-LSTM略有不同。 用GRU代替LSTM 添加类似r-net的门控注意匹配 添加单独的字符级编码 添加其他功能,例如M-Reader 在一个GRU层上添加聚合层 指针网中的初始GRU第一状态在匹配层之后添加全连接层 评估SQuAD开发人员集的结果: 模型 EM 11 Match-LSTM +(我们的版本) 70.2 79.2 Match-LSTM(纸) 64.1 73.9 R-NET-45(我
2021-10-26 18:03:51 56KB mrc pytorch squad machine-comprehension
1
BERT和知识提炼的问题解答 该存储库包含必要的代码,以便微调SQuAD 2.0数据集上的BERT。 此外,的技术是通过微调施加使用BERT作为教师模型小队2.0数据集。 使用Google Colab的1个Tesla V100 GPU获得了所有结果。 1.什么是SQuAD? 斯坦福问答数据集(SQuAD)是一种阅读理解数据集,由人群工作人员在一组Wikipedia文章上提出的问题组成,其中每个问题的答案是对应阅读段落或问题的一段文本或跨度可能无法回答。 SQuAD 2.0将SQuAD 1.1中的100,000个问题与超过50,000个由对抗性工作者对抗性编写的问题相结合,看起来类似于可回答的问题。 为了在SQuAD 2.0上取得出色的成绩,系统不仅必须在可能的情况下回答问题,而且还必须确定该段落何时不支持任何答案并放弃回答。 有关SQuAD数据集和当前排行榜的更多信息,您可以访问以下。
1
最近在学习思维导图,闲来无事,就把之前写过的博客,四元数插值方法Slerp、Squad、Spicv和Sping知识点总结整理为思维导图,有了这张图,复习时就不用再看十几万字的文章了。
2021-06-26 09:08:05 6.21MB 四元数 Slerp Squad Sping
1
Zombie Eradication Squad是一套过程管理程序,旨在减轻处理僵尸程序(已失效)的负担。
2021-05-08 13:03:57 15KB 开源软件
1
队 为斯坦福问答数据集建立质量保证体系( ) 请阅读此博客以获取详细信息: : 第一个文件create_emb.ipynb负责为训练数据集的Wikipedia文章中的所有句子和问题创建一个嵌入句子的字典。 第二个文件unsupervised.ipynb使用句子嵌入来计算句子和问题之间的距离,基于欧几里得和余弦相似度。 最后,它从距问题最短距离的每个段落中提取设置。 目前,它们的准确度分别为45%和63%。 最后一个文件将此问题视为监督学习问题,其中我拟合多项逻辑回归,随机森林和xgboost并创建20个特征-(2个特征代表一个句子的余弦距离和欧几里得。我将每个段落限制为10个句子)。 目标变量是具有正确答案的句子ID。 所以我有10个标签。 目前,这分别提供了63%,65%和69%的准确性。 未来工作:使用RNN获得确切答案
2021-05-06 16:59:37 9.23MB 系统开源
1
Door Kickers Action Squad v1.2.8
2021-04-17 09:01:43 45.86MB Door.Kickers Action.Squad 多语言
squad-v1.1的数据集,包括训练集和开发集两个json文件。squad是机器阅读理解受众非常广的数据集,提供数据资源以进行实验。
2021-03-17 22:02:28 7.22MB 机器阅读理解 数据集
1