使用BERT的越南语NER(bert-vn-ner) 由Trong-Dat Ngo编写的代码。 引言 BERT模型的Pytorch实现为越南语执行命名实体识别(NER)。 此外,单词中的特征也用于表示单词。 该系统使用预训练模型 安装 要求: Python 3.6+ 火炬1.4+ 安装依赖项: pip3 install -r requirements.txt 数据集格式 bert-vn-ner的输入数据格式遵循CoNLL-2003格式,其中四列由制表符分隔,包括word , pos , chunk和named实体。 每个单词都放在单独的行上,每个句子后面都有一个空行。 请注意,分词不用于匹配BERT的预训练(以bert-base-multilingual-cased表示) 。 有关详细信息,请参见“数据”目录中的样本数据。 下表描述了数据集中的越南语例句示例。 单词 销售点
2023-03-23 21:36:36 710KB tagging named-entity-recognition ner bert
1
深度语义角色标签 该存储库包含用于训练和使用Deep SRL模型的代码,该代码在以下内容中进行了描述: 如果您使用我们的代码,请按以下方式引用我们的论文: @inproceedings {he2017deep, title = {深层语义角色标签:什么起作用,下一步是什么}, 作者= {他,鲁恒和李,肯顿和刘易斯,迈克和Zettlemoyer,卢克}, booktitle = {计算语言学协会年会论文集}, 年= {2017} } 入门 先决条件: python应该使用Python2。您可以使用virtualenv进行模拟。 点安装numpy pip install theano ==
2023-02-22 10:44:24 54KB nlp theano deep-learning tagging
1
卷积神经网络的开发,用于音乐音频文件的多标签自动标记 初步步骤 下载mp3文件,然后使用以下方法将其组合:cat mp3.zip。*> single_mp3.zip从以下子文件夹中提取文件:find。 -mindepth 2型f -print -exec mv {}。 ; 介绍 通常,音乐音频文件可以随附与其内容有关的元数据,例如自由文本描述或标签。 事实证明,标签更有用,因为它们可以提供对音频文件的更直接描述,并且可以用于与音乐相关的推荐系统中的任务,如按性别分类,艺术家,乐器等。 由于并非所有音频文件都带有标签,因此需要自动标记。 广泛使用的一种方法涉及使用无监督特征学习,例如K均值,稀疏编码和Boltzmann机器。 在这些情况下,主要关注的是捕获低水平音乐结构,这些结构可用作某些分类器的输入。 另一种方法涉及受监督的方法,例如各种体系结构类型(MLP,CNN,RNN)的深层神经
1
DCASE 2019-任务5-城市声音标记 该存储库包含我用于的最终解决方案。 该模型在粗略和精细级别标签的预测中均排名第一。 再现结果 先决条件: 基于Linux的系统 Python> = 3.5 拥有至少8GB内存的NVidia GFX卡 CUDA> = 10.0 已安装virtualenv软件包 复制: 克隆此存储库。 要使用单个命令复制整个解决方案,请在存储库目录中时执行make run_all命令。 该命令按顺序执行以下步骤: make env :在当前目录中创建虚拟环境 make reqs :安装python软件包 make pytorch :安装PyTorch make download :从Zenodo下载Task 5的数据 make extract :提取压缩文件 make parse :解析注释 make logmel :计算并保存所有文件的Log-Mel频
1
Tagging-HMM&LogLinear(自然语言处理 NLP)
2021-08-20 01:37:53 2.07MB Tagging-HMM LogLinear 自然语言处理 NLP
OntoNotes-5.0-NER-BIO 这是CoNLL-2003格式的版本,带有OntoNotes 5.0版本NER的BIO标记方案。 此格式化的版本基于的说明以及在此存储库中创建的新脚本。 简单地说,名为“(Yuchen Zhang,Zhi Zhong,CoNLL 2013),提出了针对OntoNotes 5.0数据的Train-dev-split,并提供了将其转换为CoNLL 2012格式的脚本。 但是,结果不在BIO标记方案中,不能直接用于许多序列标记体系结构中,例如BLSTM-CRF。 此回购协议通过直接生成BIO格式简化了预处理,您可以在实验中使用它们。 步骤1:获取官方的O
1
Tag,直译标签,是一种由用户自定义的、用于描述信息[1]的关键词。Tagging是用户为信息赋予Tag的行为。Delicious,Flikr等Web2.0网站的发展促进了它的流行,使之成为社会化书签、相册服务、博客等网站的常见功能。但Tagging对用户来说是一种脑力负担不轻的行为:要将信息分类尚属不易,勿论描述信息。对一条信息而言,应该Tag类目还是属性?范畴应该更宽还是更窄?Tag越多越好、还是控制在一定数量内?尤其困难的是,由于并非事前规划,无法很好预计被Tag内容的发展,入门、维护并不轻松。但从目前网络发展形势而言——个人自生成内容(博文、图片、视频等)迅速增加,各类信息海量涌来——
2021-02-03 23:49:09 319KB Tag与Tagging
1