spacy-lookup:基于字典的命名实体识别
1
Transformer自然语言处理,Natural Language Processing with Transformers: Building Language Applications with Hugging Face
Transformer自然语言处理,Natural Language Processing with Transformers: Building Language Applications with Hugging Face
中国自然语言处理(NLP)的共享任务,数据集和最新结果中文NLP中国自然语言处理(NLP)的共享任务,数据集和最新结果任务表共同引用分辨率对话状态管理情感分类实体链接实体标记语言建模机器翻译多任务学习词性(POS)标记问题回答关系提取情感分析简体/传统转换拼写校正文本摘要主题分类音译词嵌入W
2022-03-31 10:33:32 629KB Python Natural Language Processing
1
华侨城 OCTIS(优化和比较主题模型很简单)旨在训练,分析和比较主题模型,其最佳超参数通过贝叶斯优化方法进行估算。 安装 您可以使用以下命令安装OCTIS: pip install -e . 您可以在requirements.txt文件中找到需求。 特征 我们提供了一组最新的预处理文本数据集(或者您可以预处理自己的数据集) 我们提供了一组著名的主题模型(经典模型和神经模型),或者您可以集成自己的模型 您可以使用几种最新的评估指标来评估模型 您可以使用贝叶斯优化相对于给定指标优化模型的超参数 我们提供了一个简单的网络信息中心,用于启动和控制优化实验 获取预处理的数据集 要获取数据集,您可以使用内置源之一。 from octis . dataset . dataset import Dataset dataset = Dataset () dataset . load ( "oc
1
MatchPyramid用于语义匹配 MatchPyramid模型的简单Keras实现,用于语义匹配。 请参考论文: 快速浏览 输入数据格式 火车/有效套票: label |q1 |q2 1 |Q2119 |D18821 0 |Q2119 |D18822 测试集: q1 |q2 Q2241 |D19682 Q2241 |D19684 预处理语料库: qid |words D9980 |47 0 1 2 3 4 5 6 7 8 9 10 D5796 |21 40 41 42 43 44 14 45 字词嵌入: word |embedding (50-dimension) 28137 |-0.54645991 2.28509140 ... -0.34052843 -2.01874685 8417 |-9.01635551 -3.80108356 ... 1.86873138 2.147
1
亚马逊评论情绪分析 情感分析一直在增长-既由于深度学习中使用了新的分析技术,又因为到处都有大量的数据生成。 每条产品评论,每条推文,每条Reddit帖子等均包含我们希望能够处理和理解的主观信息。 例如,假设您是Netflix。 然后,您对客户对您的服务和电视节目/电影选择要说的话非常感兴趣,并且您可能会希望挖掘Facebook帖子和推文以及IMDB评论等,以评估公众意见。 如果您是一名政客,那么您(希望)对选民的想法,他们想要什么,他们持有哪些宝贵价值观等感兴趣,因此您可能会有一个团队来分析这些领域的公众情绪。 如果您是企业家,那么您会对公众舆论感兴趣,因为它关系到您的利基,产品和竞争,因为
1
Tensorflow QRNN TensorFlow的QRNN实现。 实现参考下面的博客。 依存关系 TensorFlow:0.12.0 scikit-learn:0.18.1(用于工作检查) 怎么跑 向前测试 要确认正向传播,请运行以下脚本。 python test_tf_qrnn_forward.py 工作检查 要确认QRNN与基准(LSTM)的性能比较,请运行以下脚本。 数据集是。 python test_tf_qrnn_work.py 您可以通过查看计算结果。 例如。 tensorboard --logdir=./summary/qrnn 实验 Baseline(LSTM)
1
无监督数据增强 总览 无监督数据增强或UDA是一种半监督学习方法,可在各种语言和视觉任务上实现最新的结果。 仅用20个标记的示例,UDA优于以前在25,000个标记的示例上训练的IMDb的最新技术。 模型 带标签的示例数 错误率 混合增值税(以前的SOTA) 25,000 4.32 伯特 25,000 4.51 UDA 20 4.20 使用CIFAR-10(带有4,000个标记的示例)和SVHN(带有1,000个带标记的示例),可将最新方法的错误率降低30%以上: 模型 CIFAR-10 SVHN ICT(以前的SOTA) 7.66±.17 3.53±.07 UDA 4.31±.08 2.28±.10 有了10%的标签数据,它就对ImageNet进行了重大改进。 模型 top-1精度 前5位准确性 ResNet-50 55.09 77.26 UDA 68.78 88.80 这个怎么运作 UDA是一种半监督学习的方法,它减少了对带有标记的示例的需求,并更好地利用了没有标记的示例。 我们发布的内容 我们发布以下内容: 基于BERT的文本分
1
带文本生成器的GPT2-Pytorch 更好的语言模型及其含义 我们的模型称为GPT-2(是的继承者),仅经过培训即可预测40GB的互联网文本中的下一个单词。 由于我们担心该技术的恶意应用,因此我们不会发布经过训练的模型。 作为负责任公开的一项实验,我们将发布一个供研究人员进行实验的以及一份。 来自 该存储库是有关Pytorch中带有压缩代码的文本生成器的简单实现GPT-2 原始曲目是 。 您也可以阅读有关gpt-2的论文, 。 为了理解更详细的概念,我建议您阅读有关变压器模型的论文。 我在Pytorch中实现了GPT-2的良好实现, ,您可以在havingface存储库中看到更多详细的实现。 变形金刚(自我关注)论文:只 OpenAi-GPT的第一篇论文: 请参阅有关GPT-2和Paper的 快速开始 在Pytorch中下载GPT2预训练模型,该模型已经完成了face / pytorch-pretrained-BERT的制作! (感谢分享!这有助于我将tensorflow(ckpt)文件传输到Pytorch模型的问题!) $ git clone https://g
1