Tensorflow QRNN TensorFlow的QRNN实现。 实现参考下面的博客。 依存关系 TensorFlow:0.12.0 scikit-learn:0.18.1(用于工作检查) 怎么跑 向前测试 要确认正向传播,请运行以下脚本。 python test_tf_qrnn_forward.py 工作检查 要确认QRNN与基准(LSTM)的性能比较,请运行以下脚本。 数据集是。 python test_tf_qrnn_work.py 您可以通过查看计算结果。 例如。 tensorboard --logdir=./summary/qrnn 实验 Baseline(LSTM)
1
无监督数据增强 总览 无监督数据增强或UDA是一种半监督学习方法,可在各种语言和视觉任务上实现最新的结果。 仅用20个标记的示例,UDA优于以前在25,000个标记的示例上训练的IMDb的最新技术。 模型 带标签的示例数 错误率 混合增值税(以前的SOTA) 25,000 4.32 伯特 25,000 4.51 UDA 20 4.20 使用CIFAR-10(带有4,000个标记的示例)和SVHN(带有1,000个带标记的示例),可将最新方法的错误率降低30%以上: 模型 CIFAR-10 SVHN ICT(以前的SOTA) 7.66±.17 3.53±.07 UDA 4.31±.08 2.28±.10 有了10%的标签数据,它就对ImageNet进行了重大改进。 模型 top-1精度 前5位准确性 ResNet-50 55.09 77.26 UDA 68.78 88.80 这个怎么运作 UDA是一种半监督学习的方法,它减少了对带有标记的示例的需求,并更好地利用了没有标记的示例。 我们发布的内容 我们发布以下内容: 基于BERT的文本分
1
带文本生成器的GPT2-Pytorch 更好的语言模型及其含义 我们的模型称为GPT-2(是的继承者),仅经过培训即可预测40GB的互联网文本中的下一个单词。 由于我们担心该技术的恶意应用,因此我们不会发布经过训练的模型。 作为负责任公开的一项实验,我们将发布一个供研究人员进行实验的以及一份。 来自 该存储库是有关Pytorch中带有压缩代码的文本生成器的简单实现GPT-2 原始曲目是 。 您也可以阅读有关gpt-2的论文, 。 为了理解更详细的概念,我建议您阅读有关变压器模型的论文。 我在Pytorch中实现了GPT-2的良好实现, ,您可以在havingface存储库中看到更多详细的实现。 变形金刚(自我关注)论文:只 OpenAi-GPT的第一篇论文: 请参阅有关GPT-2和Paper的 快速开始 在Pytorch中下载GPT2预训练模型,该模型已经完成了face / pytorch-pretrained-BERT的制作! (感谢分享!这有助于我将tensorflow(ckpt)文件传输到Pytorch模型的问题!) $ git clone https://g
1
视觉推理的自然语言 该存储库包含 (Suhr等人2017)和 (Suhr和Zhou等人2018)的数据。 视觉推理自然语言语料库的任务是确定关于视觉输入(如图像)的句子是否正确。 该任务的重点是关于对象集,比较和空间关系的推理。 这包括两个数据集:具有合成生成图像的NLVR和包括自然照片的NLVR2。 有关示例和页首横幅,请参见网页: : 如有疑问,请使用“问题”页面,或直接给我们发送电子邮件: 发牌 NLVR(包含合成图像的原始数据集; Suhr等人2017) 继Microsoft COCO( )之后,我们根据CC-BY-4.0( )许可了NLVR数据集(合成生成的图像,结构化表示和注释) )。 NLVR2(具有真实图像的数据集,Suhr和Zhou等人,2018年) 我们已在CC-BY-4.0( )下许可了NLVR2图像的注释(句子和二进制标签)。 我们不授权NL
1
MTBook:《机器翻译:基础与模型》肖桐朱靖波着-机器翻译:基础和模型
1
自然语言处理与中文计算——CCF会议(NLPCC 2014)论文全集收录
2022-02-07 10:15:00 26.3MB 自然语言处理 NLP 中文处理 机器学习
1
情绪急救数据集 心理咨询问答语言料库,仅限研究用途。 为什么发布这个语料库 心理咨询中应用人工智能,是我们认为非常有价值的一个探索。我们愿意和更多人合作,把目前领先的人工智能技术,在心理咨询不同场景定位地。扣门的,就给他开门,愿每个人都有自己的心理咨询师。 - 数据集介绍 心理咨询问答语料库(以下也称为“数据集”,“语料库”)是为应用人工智能技术于心理咨询领域制作的语料。据我们所知,这是心理咨询领域首个开放的QA语料库,包括20,000条心理咨询数据,也是公开的最大的中文心理咨询对话语料。数据集内容丰富,不但存在多轮对话内容,也有分类等信息,制作过程耗费大量时间和收益,标注过程是针对多轮对话的,平均每条标记耗时1分钟。 数据集由斯坦福大学,UCLA和台湾辅仁大学临床心理学等心理学专业人士参与建设,并由Chatopera和众多志愿者合作完成。 数据文件位置 ,该文件为Gzip压缩,utf8
1
餐馆评论分析 使用自然语言处理和单词袋进行特征提取,以分析在餐厅用餐的顾客的情绪,最后使用分类算法将正面和负面情绪分开。 餐馆评论分析使用自然语言处理和词袋进行特征提取,以对在餐馆中拜访的顾客进行情感分析,最后使用分类算法将正面和负面情绪分开。 自然语言处理自然语言处理是计算机科学,信息工程和人工智能的一个子领域,与计算机和人类语言之间的交互有关,尤其是如何对计算机进行编程以处理和分析大量自然语言数据 使用机器学习算法对分类进行分类,以分离不同的情感,以更好地了解商业环境
1
|简体中文 ERNIE是百度开创性提出的基于知识增强的持续学习语义理解框架,该框架将大数据预训练与多源丰富知识相结合,通过持续学习技术,不断吸收海量文本数据中文字句,结构,语义等方面ERNIE在情感分析,文本匹配,自然语言推理,词法分析,阅读理解,智能问答等16个公开数据集上全面显着超越世界领先技术,在国际权威的通用语言理解上评估基准GLUE上,突破首次突破90分,获得全球第一。在今年3月落下帷幕的全球最大语义评价。SemEval2020上,ERNIE摘得5项世界冠军,该技术也被全球顶级科技商业杂志《麻省理工科技评论》官方网站报道,相关创新成果也被国际顶级学术会议AAAI,IJCAI收录。E
1
CS224N-2019和2021 闪亮的新事物:我已经在2021年更新了此解决方案,其中包括: 作业1中的新词嵌入分析 关于预训练和合成器变压器的新作业5 简化的NMT分配4 我的CS224N 2019解决方案 课程连结 课程页面 讲座视频2019 杂项 安装Chrome扩展以便更好地显示公式 由于Kaggle将其GPU更新为P100(与K80相比,性能提高了2倍),因此该将展示我如何使用Kaggle内核训练A5(大约6小时)
1