OntoNotes-5.0-NER-BIO 这是CoNLL-2003格式的版本,带有OntoNotes 5.0版本NER的BIO标记方案。 此格式化的版本基于的说明以及在此存储库中创建的新脚本。 简单地说,名为“(Yuchen Zhang,Zhi Zhong,CoNLL 2013),提出了针对OntoNotes 5.0数据的Train-dev-split,并提供了将其转换为CoNLL 2012格式的脚本。 但是,结果不在BIO标记方案中,不能直接用于许多序列标记体系结构中,例如BLSTM-CRF。 此回购协议通过直接生成BIO格式简化了预处理,您可以在实验中使用它们。 步骤1:获取官方的O
1
MAMS for ABSA 此存储库包含论文“ EMCLP-IJCNLP 2019, 挑战数据集和基于方面的情感分析的有效模型”的数据和代码。 彩信 MAMS是用于基于方面的情感分析(ABSA)的挑战数据集,其中每个句子包含至少两个具有不同情感极性的方面。 MAMS数据集包含两个版本:一个用于方面术语情感分析(ATSA),另一个用于方面类别情感分析(ACSA)。 要求 pytorch==1.1.0 spacy==2.1.8 pytorch-pretrained-bert==0.6.2 adabound==0.0.5 pyyaml==5.1.2 numpy==1.17.2 scikit-learn==0.21.3 scipy==1.3.1 快速开始 将经过预训练的GloVe( )文件glove.840B.300d.txt放在./data文件夹中。 修改config.py以选择任务,模型和
1
ln2sql ln2sql是使用自然语言查询数据库的NLP工具。 该工具接受输入的数据库模型和句子,然后将其转换为能够查询输入数据模型的有效SQL语句。 科学论文 以下法语文件(可在docs/目录中找到)对初始工具进行了描述: 如果使用ln2sql,请引用该论文。 本文版本(fr2sql)和此版本(ln2sql)之间的差异 出于版权考虑,ln2sql不是最新的工具。 它只是一个快速而肮脏的Python包装器,但具有一些速度优化。 在本文中, 用于根据其POS标记过滤输入句子的单词。 以此方式,可以执行输入句子的关键字与数据模型的关键字之间的映射。 在ln2sql中,T
1
排名:6 队名:爆写规则一万行 成员: , , 环境环境 Ubuntu 18.04 的Python:3.6.5 火炬:1.1.0 CUDA:9.0 CUDNN:7.1.3 所需的包 我们将软件包用于主干BERT模型。 (请注意,原始在比赛期间已更新为 ,但出于稳定性考虑,我们选择使用旧版本。) 所需的Python软件包: fuzzywuzzy==0.17.0 numpy==1.17.0 torch==1.1.0 pytorch-pretrained-bert==0.6.2 tqdm==4.24.0 records 安装所需的python软件包的命令: pip install
1
BERT扩展 (来自变压器的双向编码器表示)是Google AI语言小组提出的一种通用的自动编码预训练方法,它在11个NLP任务(包括问题回答,自然,语言推理和情感分析)方面获得了最新的技术成果。 BERT旨在通过在所有层的左,右上下文上共同进行条件调节来预训练来自未标记文本的深层双向表示,这使它可以轻松地针对下游任务进行微调,而无需进行大量针对特定任务的体系结构修改。 该项目旨在提供基于当前BERT的扩展,并将BERT的功能带给NER和NLU等其他NLP任务。 图1:在不同任务上对BERT进行微调的图示 环境 的Python 3.6.7 Tensorflow 1.13.1 NumPy 1.13.3 数据集 是一个多任务数据集,包含3个子任务,POS标记,语法块和NER。 对于NER子任务,它包含4种命名实体:不属于前三组的人员,位置,组织和杂项名称。 (航空公司旅行信息系统)
1
在云上进行情感分析的全面评估 Ashwin Nalwade,陈名喜。 科技栈 应用程序和数据:Python,Flask,Gunicorn,CSS,spaCy,PyTorch,Pandas,HuggingFace。 云:Paperspace的Google Cloud Platform(GCP),IBM Cloud,Gradient Cloud。 容器:Docker [Docker Hub],Kubernetes,Google Kubernetes Engine。 跨平台比较 我们在3个不同的云平台上测试了不同的方法,并通过在GPU上运行时使用探查器来分析训练时间[历时平均值],准确性和内存利用率[峰值]。 GPU详细信息[Colab Pro] Fri Nov 27 20:47:34 2020 +----------------------------------------------
1
斯坦福-张量流教程 该存储库包含课程CS 20:TensorFlow for Deep Learning Research的代码示例。 它会随着课程的进行而更新。 详细的教学大纲和讲义可在找到。 在本课程中,我使用python3.6和TensorFlow 1.4.1。 有关上一年课程的代码和注释,请参阅文件夹2017和网站 有关安装说明和依赖项列表,请参见此存储库的安装文件夹。
1
ACL选集 这些是生成ACL Anthology网站的基本说明,如。 该存储库的官方主页是 。 选集 先决条件 要构建Anthology网站,您需要: Python 3.7或更高版本 在bin/requirements.txt列出的Python软件包; 要安装,请运行pip -r bin/requirements.txt 或更高版本(可以;需要扩展版本!) 用于创建非BibTeX引用格式的 (并非严格要求构建网站,但是如果没有它们,则您需要按照所述手动调用构建步骤) 可选:如果在第一次运行make之前安装libyaml-dev和Cython ,将使用libyaml C库而不是python实现,从而加快了构建速度。 使用GitHub构建和部署 有一个GitHub action操作直接从GitHub执行部署。 要使用此功能,您需要在存储库设置(Web界面:设置->机密)中定义以下变量: PUBLISH_TARGET :rsync将把选集推送到该目标(例如, user@aclweb.org:anthology-static ) PUBLISH_SSH_KEY :标准pem格式的密
1
timewords:多语言库,可轻松将日期字符串解析为java.util.Date对象
2021-02-01 11:17:00 51KB java natural-language-processing clojure parsing
1