华侨城 OCTIS(优化和比较主题模型很简单)旨在训练,分析和比较主题模型,其最佳超参数通过贝叶斯优化方法进行估算。 安装 您可以使用以下命令安装OCTIS: pip install -e . 您可以在requirements.txt文件中找到需求。 特征 我们提供了一组最新的预处理文本数据集(或者您可以预处理自己的数据集) 我们提供了一组著名的主题模型(经典模型和神经模型),或者您可以集成自己的模型 您可以使用几种最新的评估指标来评估模型 您可以使用贝叶斯优化相对于给定指标优化模型的超参数 我们提供了一个简单的网络信息中心,用于启动和控制优化实验 获取预处理的数据集 要获取数据集,您可以使用内置源之一。 from octis . dataset . dataset import Dataset dataset = Dataset () dataset . load ( "oc
1
MatchPyramid用于语义匹配 MatchPyramid模型的简单Keras实现,用于语义匹配。 请参考论文: 快速浏览 输入数据格式 火车/有效套票: label |q1 |q2 1 |Q2119 |D18821 0 |Q2119 |D18822 测试集: q1 |q2 Q2241 |D19682 Q2241 |D19684 预处理语料库: qid |words D9980 |47 0 1 2 3 4 5 6 7 8 9 10 D5796 |21 40 41 42 43 44 14 45 字词嵌入: word |embedding (50-dimension) 28137 |-0.54645991 2.28509140 ... -0.34052843 -2.01874685 8417 |-9.01635551 -3.80108356 ... 1.86873138 2.147
1
亚马逊评论情绪分析 情感分析一直在增长-既由于深度学习中使用了新的分析技术,又因为到处都有大量的数据生成。 每条产品评论,每条推文,每条Reddit帖子等均包含我们希望能够处理和理解的主观信息。 例如,假设您是Netflix。 然后,您对客户对您的服务和电视节目/电影选择要说的话非常感兴趣,并且您可能会希望挖掘Facebook帖子和推文以及IMDB评论等,以评估公众意见。 如果您是一名政客,那么您(希望)对选民的想法,他们想要什么,他们持有哪些宝贵价值观等感兴趣,因此您可能会有一个团队来分析这些领域的公众情绪。 如果您是企业家,那么您会对公众舆论感兴趣,因为它关系到您的利基,产品和竞争,因为
1
Tensorflow QRNN TensorFlow的QRNN实现。 实现参考下面的博客。 依存关系 TensorFlow:0.12.0 scikit-learn:0.18.1(用于工作检查) 怎么跑 向前测试 要确认正向传播,请运行以下脚本。 python test_tf_qrnn_forward.py 工作检查 要确认QRNN与基准(LSTM)的性能比较,请运行以下脚本。 数据集是。 python test_tf_qrnn_work.py 您可以通过查看计算结果。 例如。 tensorboard --logdir=./summary/qrnn 实验 Baseline(LSTM)
1
无监督数据增强 总览 无监督数据增强或UDA是一种半监督学习方法,可在各种语言和视觉任务上实现最新的结果。 仅用20个标记的示例,UDA优于以前在25,000个标记的示例上训练的IMDb的最新技术。 模型 带标签的示例数 错误率 混合增值税(以前的SOTA) 25,000 4.32 伯特 25,000 4.51 UDA 20 4.20 使用CIFAR-10(带有4,000个标记的示例)和SVHN(带有1,000个带标记的示例),可将最新方法的错误率降低30%以上: 模型 CIFAR-10 SVHN ICT(以前的SOTA) 7.66±.17 3.53±.07 UDA 4.31±.08 2.28±.10 有了10%的标签数据,它就对ImageNet进行了重大改进。 模型 top-1精度 前5位准确性 ResNet-50 55.09 77.26 UDA 68.78 88.80 这个怎么运作 UDA是一种半监督学习的方法,它减少了对带有标记的示例的需求,并更好地利用了没有标记的示例。 我们发布的内容 我们发布以下内容: 基于BERT的文本分
1
带文本生成器的GPT2-Pytorch 更好的语言模型及其含义 我们的模型称为GPT-2(是的继承者),仅经过培训即可预测40GB的互联网文本中的下一个单词。 由于我们担心该技术的恶意应用,因此我们不会发布经过训练的模型。 作为负责任公开的一项实验,我们将发布一个供研究人员进行实验的以及一份。 来自 该存储库是有关Pytorch中带有压缩代码的文本生成器的简单实现GPT-2 原始曲目是 。 您也可以阅读有关gpt-2的论文, 。 为了理解更详细的概念,我建议您阅读有关变压器模型的论文。 我在Pytorch中实现了GPT-2的良好实现, ,您可以在havingface存储库中看到更多详细的实现。 变形金刚(自我关注)论文:只 OpenAi-GPT的第一篇论文: 请参阅有关GPT-2和Paper的 快速开始 在Pytorch中下载GPT2预训练模型,该模型已经完成了face / pytorch-pretrained-BERT的制作! (感谢分享!这有助于我将tensorflow(ckpt)文件传输到Pytorch模型的问题!) $ git clone https://g
1
视觉推理的自然语言 该存储库包含 (Suhr等人2017)和 (Suhr和Zhou等人2018)的数据。 视觉推理自然语言语料库的任务是确定关于视觉输入(如图像)的句子是否正确。 该任务的重点是关于对象集,比较和空间关系的推理。 这包括两个数据集:具有合成生成图像的NLVR和包括自然照片的NLVR2。 有关示例和页首横幅,请参见网页: : 如有疑问,请使用“问题”页面,或直接给我们发送电子邮件: 发牌 NLVR(包含合成图像的原始数据集; Suhr等人2017) 继Microsoft COCO( )之后,我们根据CC-BY-4.0( )许可了NLVR数据集(合成生成的图像,结构化表示和注释) )。 NLVR2(具有真实图像的数据集,Suhr和Zhou等人,2018年) 我们已在CC-BY-4.0( )下许可了NLVR2图像的注释(句子和二进制标签)。 我们不授权NL
1
MTBook:《机器翻译:基础与模型》肖桐朱靖波着-机器翻译:基础和模型
1
自然语言处理与中文计算——CCF会议(NLPCC 2014)论文全集收录
2022-02-07 10:15:00 26.3MB 自然语言处理 NLP 中文处理 机器学习
1
情绪急救数据集 心理咨询问答语言料库,仅限研究用途。 为什么发布这个语料库 心理咨询中应用人工智能,是我们认为非常有价值的一个探索。我们愿意和更多人合作,把目前领先的人工智能技术,在心理咨询不同场景定位地。扣门的,就给他开门,愿每个人都有自己的心理咨询师。 - 数据集介绍 心理咨询问答语料库(以下也称为“数据集”,“语料库”)是为应用人工智能技术于心理咨询领域制作的语料。据我们所知,这是心理咨询领域首个开放的QA语料库,包括20,000条心理咨询数据,也是公开的最大的中文心理咨询对话语料。数据集内容丰富,不但存在多轮对话内容,也有分类等信息,制作过程耗费大量时间和收益,标注过程是针对多轮对话的,平均每条标记耗时1分钟。 数据集由斯坦福大学,UCLA和台湾辅仁大学临床心理学等心理学专业人士参与建设,并由Chatopera和众多志愿者合作完成。 数据文件位置 ,该文件为Gzip压缩,utf8
1