使用BERT的越南语NER(bert-vn-ner) 由Trong-Dat Ngo编写的代码。 引言 BERT模型的Pytorch实现为越南语执行命名实体识别(NER)。 此外,单词中的特征也用于表示单词。 该系统使用预训练模型 安装 要求: Python 3.6+ 火炬1.4+ 安装依赖项: pip3 install -r requirements.txt 数据集格式 bert-vn-ner的输入数据格式遵循CoNLL-2003格式,其中四列由制表符分隔,包括word , pos , chunk和named实体。 每个单词都放在单独的行上,每个句子后面都有一个空行。 请注意,分词不用于匹配BERT的预训练(以bert-base-multilingual-cased表示) 。 有关详细信息,请参见“数据”目录中的样本数据。 下表描述了数据集中的越南语例句示例。 单词 销售点
2023-03-23 21:36:36 710KB tagging named-entity-recognition ner bert
1
地址信息作为空间信息,在各行各业中的应用越来越广泛,通过日常地址和标准地址匹配获取到标准地址的经纬度的应用很广泛,目前在匹配中使用深度学习Bert模型的方法对地址进行分段分级,通过分级信息,对地址济宁精准匹配。
1
包括三个文件: 1. pytorch_model.bin 2. config.json 3. vocab.txt
2022-10-27 17:05:40 386.68MB bert模型
1
适合学习自然语言的入门者,内部含数据集
2022-10-17 09:07:00 433KB numpy复现bert
预训练语言模型,可用于文本分类等NLP任务,序列标注任务,情感分析任务,采用业界通用的技术实现,接下游文本分类,序列标注,情感分析等任务,性能良好
2022-10-12 14:57:35 547KB 语言模型
1
针对互联网不良信息检测这一业务场景,探讨了基于网站文本内容进行检测的方法。回顾了经典的文本分析技术,重点介绍了Bert模型的关键技术特点及其两种不同用法。详细描述了利用其中的特征提取方法,进行网站不良信息检测的具体实施方案,并且与传统的TF-IDF模型以及word2vec+LSTM模型进行了对比验证,证实了这一方法的有效性。
2022-06-22 22:51:20 705KB 不良信息 Bert模型 文本分析 特征提取
1
SciBERT SciBERT是经过科学文字训练的BERT模型。 SciBERT受过SciBERT )的论文训练。 语料库大小为114万张论文,3.1B令牌。 我们在培训中使用论文的全文,而不仅仅是摘要。 SciBERT拥有自己的词汇表( scivocab ),该词汇表最适合于训练语料库。 我们训练了有壳和无壳版本。 我们还包括在原始BERT词汇表( basevocab )上训练的模型,以进行比较。 它可在各种科学领域的nlp任务上实现最先进的性能。 评估的详细信息在。 评估代码和数据包含在此仓库中。 下载训练有素的模型 更新! 现在可以直接在allenai组织下的allenai框架内安装SciBERT模型: from transformers import * tokenizer = AutoTokenizer.from_pretrained('allenai/scibert_scivocab_uncased') model = AutoModel.from_pretrained('allenai/scibert_scivocab_uncased') tokenizer =
1
[Objective] This paper compares the prediction accuracy and efficiency of different machine learning algorithms, aiming to identify new consumers with repeat purchase intentions. It also provides a theoretical framework for customer classification. [Methods] First, we collected the server logs of a dealer on Taobao.com from 2015 to 2018,as well as its orders and consumers’ personal information. And then, we used different algorithms to train theproposedmodels. [Results] The SMOTE algorithm combined with the random forest algorithm obtained the highest prediction accuracy of 96%. [Limitations] The sample data size needs to be expanded. [Conclusions] The fusion algorithm basedon SMOTE and random forest has better performance in predicting repurchase intentions of new consumers.
2022-04-06 20:44:11 467KB Repeat Purchase
1
请看博客https://blog.csdn.net/qq_41335232/article/details/121664394
2022-03-14 09:28:18 413.74MB 文本分类 Bert 多标签文本分类 pytorch
1
本文介绍以下内容: 1. 使用transformers框架做预训练的bert-base模型; 2. 开发平台使用Google的Colab平台,白嫖GPU加速; 3. 使用datasets模块下载IMDB影评数据作为训练数据。 transformers模块简介 transformers框架为Huggingface开源的深度学习框架,支持几乎所有的Transformer架构的预训练模型。使用非常的方便,本文基于此框架,尝试一下预训练模型的使用,简单易用。 本来打算预训练bert-large模型,发现colab上GPU显存不够用,只能使用base版本了。打开colab,并且设置好GPU加速,接下来开
2021-12-25 13:21:21 101KB c OR 模型
1