修剪后的依赖树上的图卷积用于关系提取 此回购包含PyTorch代码,用于修剪。 本文/代码在修剪的依赖树上引入了图卷积神经网络(GCN),用于关系提取的任务。 还引入了一种特殊的树修剪技术,称为“以路径为中心的修剪”,以从树中消除不相关的信息,同时最大程度地维护相关信息。 与诸如各种基于LSTM的模型之类的序列模型相比,此GCN模型利用依赖结构桥接远程单词,因此提高了远程关系的性能。 与以前的递归模型(如TreeLSTM)相比,此GCN模型在获得更好的性能的同时,也更早地实现了并行化,因此效率更高。 参见下面的模型架构概述: 要求 Python 3(在3.6.5上测试) PyTorch(
1
udpipe-基于UDPipe的用于标记化,标记,合法化和依赖性解析的R包 该存储库包含的R包是绕UDPipe C ++库的RCPP包装物( , )。 UDPipe提供了与语言无关的标记,标记,词条化以及原始文本的依赖项解析,这是自然语言处理中必不可少的部分。 所使用的技术在论文中进行了详细说明:“使用UDPipe进行令牌化,POS标记,解密和解析UD 2.0”,可从以下网址获得: //ufal.mff.cuni.cz/~straka/papers/2017-conll_udpipe.pdf 。 在该论文中,您还将发现不同语言和流程速度的精确度(以每秒字数为单位)。 一般 在围绕UD
2022-06-29 13:12:39 4.69MB nlp natural-language-processing text-mining r
1
PyTorch问答 该存储库包含一些最重要的问题解答论文的实现。 这些实现以教程的形式进行,并且大致是所述论文的注释。 对于那些了解深度学习和NLP基础知识,想要开始阅读稍微复杂的论文并了解其实现方式的人来说,该存储库可能会有所帮助。 尽管我已尽力以简单的方式分解所有内容,但该存储库还假定您对PyTorch基础有所了解。 问题回答 问答是一项重要的任务,基于此,可以判断NLP系统和AI的智能。 QA系统将给出有关某个主题的简短段落或上下文,并根据文章内容提出一些问题。 这些问题的答案是上下文的跨度,也就是说,它们可以直接在文章中找到。 为了训练这样的模型,我们使用数据集。 入门 名为“ QA的
1
斯坦福大学CoreNLP Stanford CoreNLP提供了一组用Java编写的自然语言分析工具。 它可以接受原始的人类语言文本输入,并给出单词的基本形式,它们的词性,是否是公司名称,人员名称等,规范化并解释日期,时间和数字量,标记句子的结构在短语或单词从属关系方面,并指出哪些名词短语指代相同的实体。 它最初是为英语开发的,但现在也为(现代标准)阿拉伯语,(大陆)中文,法语,德语和西班牙语提供不同级别的支持。 斯坦福大学的CoreNLP是一个集成的框架,这使得将大量语言分析工具应用于一段文本变得非常容易。 从纯文本开始,您只需两行代码即可运行所有工具。 它的分析为更高层次和特定领域的文本理解应用程序提供了基础构建块。 Stanford CoreNLP是一套稳定且经过测试的自然语言处理工具,已被学术界,行业和政府中的各个团体广泛使用。 这些工具使用基于规则的,概率机器学习和深度学习组件。 Stanford CoreNLP代码用Java编写,并根据GNU通用公共许可证(v3或更高版本)获得许可。 请注意,这是完整的GPL,它允许许多免费使用,但不能在分发给他人的专有软件中使用。 制
1
spacy-lookup:基于字典的命名实体识别
1
无监督数据增强 总览 无监督数据增强或UDA是一种半监督学习方法,可在各种语言和视觉任务上实现最新的结果。 仅用20个标记的示例,UDA优于以前在25,000个标记的示例上训练的IMDb的最新技术。 模型 带标签的示例数 错误率 混合增值税(以前的SOTA) 25,000 4.32 伯特 25,000 4.51 UDA 20 4.20 使用CIFAR-10(带有4,000个标记的示例)和SVHN(带有1,000个带标记的示例),可将最新方法的错误率降低30%以上: 模型 CIFAR-10 SVHN ICT(以前的SOTA) 7.66±.17 3.53±.07 UDA 4.31±.08 2.28±.10 有了10%的标签数据,它就对ImageNet进行了重大改进。 模型 top-1精度 前5位准确性 ResNet-50 55.09 77.26 UDA 68.78 88.80 这个怎么运作 UDA是一种半监督学习的方法,它减少了对带有标记的示例的需求,并更好地利用了没有标记的示例。 我们发布的内容 我们发布以下内容: 基于BERT的文本分
1
带文本生成器的GPT2-Pytorch 更好的语言模型及其含义 我们的模型称为GPT-2(是的继承者),仅经过培训即可预测40GB的互联网文本中的下一个单词。 由于我们担心该技术的恶意应用,因此我们不会发布经过训练的模型。 作为负责任公开的一项实验,我们将发布一个供研究人员进行实验的以及一份。 来自 该存储库是有关Pytorch中带有压缩代码的文本生成器的简单实现GPT-2 原始曲目是 。 您也可以阅读有关gpt-2的论文, 。 为了理解更详细的概念,我建议您阅读有关变压器模型的论文。 我在Pytorch中实现了GPT-2的良好实现, ,您可以在havingface存储库中看到更多详细的实现。 变形金刚(自我关注)论文:只 OpenAi-GPT的第一篇论文: 请参阅有关GPT-2和Paper的 快速开始 在Pytorch中下载GPT2预训练模型,该模型已经完成了face / pytorch-pretrained-BERT的制作! (感谢分享!这有助于我将tensorflow(ckpt)文件传输到Pytorch模型的问题!) $ git clone https://g
1
|简体中文 ERNIE是百度开创性提出的基于知识增强的持续学习语义理解框架,该框架将大数据预训练与多源丰富知识相结合,通过持续学习技术,不断吸收海量文本数据中文字句,结构,语义等方面ERNIE在情感分析,文本匹配,自然语言推理,词法分析,阅读理解,智能问答等16个公开数据集上全面显着超越世界领先技术,在国际权威的通用语言理解上评估基准GLUE上,突破首次突破90分,获得全球第一。在今年3月落下帷幕的全球最大语义评价。SemEval2020上,ERNIE摘得5项世界冠军,该技术也被全球顶级科技商业杂志《麻省理工科技评论》官方网站报道,相关创新成果也被国际顶级学术会议AAAI,IJCAI收录。E
1
双项主题模型 此程序包实现了由,兰介绍的短文本的。 它包括BTM模型的两种实现:cythonized)1 由小慧严,2)优化和cythonized 通过 。 它还能够计算困惑和语义一致性度量。 要求 赛顿 NumPy 大熊猫 科学 Scikit学习 pyLDAvis(可选) 设置 您可以从PyPi安装软件包: pip install bitermplus 或从此回购中: pip install git+https://github.com/maximtrp/bitermplus.git 例子 import bitermplus as btm import numpy as np from gzip import open as gzip_open # Importing and vectorizing text data with gzip_open ( 'dataset/Sea
1
textacy:NLP,spaCy之前和之后 textacy是一个基于高性能spaCy库的Python库,用于执行各种自然语言处理(NLP)任务。 通过将基础知识-令牌化,词性标记,依赖项解析等-委托给另一个库, textacy主要关注于之前和之后的任务。 产品特点 通过用于处理一个或多个文档的便捷方法访问spaCy,并通过自定义扩展名和自动语言识别扩展其功能,从而为文本应用正确的spaCy管道 下载包含文本内容和元数据的数据集,从国会演讲到历史文献再到Reddit评论 轻松以多种常用格式在磁盘之间传输数据 清理,规范化和浏览原始文本-在使用spaCy处理之前 灵活地从处理过的文档中提取单词,n-gram,名词块,实体,首字母缩写词,关键词和其他感兴趣的元素 通过各种相似性指标比较字符串,集合和文档 对文档进行标记和向量化,然后训练,解释和可视化主题模型 计算各种文本可读性统计信息,包括Flesch-Kincaid等级水平,SMOG索引和多语种Flesch Reading Ease ...还有更多! 链接 下载: : 文档: : 源代码: : 错误跟踪程序: : 维
2021-12-09 11:59:06 312KB python nlp natural-language-processing spacy
1