| 在自然语言处理领域中,预训练语言模型(预训练语言模型)已成为非常重要的基础技术。为了进一步促进中文信息处理的研究发展,我们发布了基于全词遮罩(Whole Word Masking)技术的中文预训练模型BERT-wwm,以及更多技术相关的模型:BERT-wwm-ext,RoBERTa-wwm-ext,RoBERTa-wwm-ext-large,RBT3,RBTL3。 崔一鸣,车万祥,刘婷,秦兵,杨自清,王世进,胡国平 本项目基于谷歌官方BERT: : 其他相关资源: MacBERT预训练模型: : 中文ELECTRA预训练模型: : 中文XLNet预训练模型: : 知识蒸馏工具TextBrewer: : 查看更多哈工大讯飞联合实验室(HFL)发布的资源: : 新闻 2021年1月27日所有模型已支持TensorFlow 2,请通过变压器库进行调用或下载。 2020/9/15我们的论文被录用为长文。 2020/8/27哈工大讯飞联合实验室在通用自然语言理解评论GLUE中荣登榜首,查看,。 2020/3/23本目录发布的模型已接收 ,查看 2020/3/11
2021-10-17 16:37:29 15.64MB nlp tensorflow pytorch bert
1
BERT-NER-Pytorch:三种不同模式的BERT中文NER实验
2021-10-14 18:04:19 280KB 自然语言处理
1
参数: --task_name=MRPC --do_train=true --do_eval=true --data_dir=$GLUE_DIR\MRPC --vocab_file=$BERT_BASE_DIR\vocab.txt --bert_config_file=$BERT_BASE_DIR\bert_config.json --init_checkpoint=$BERT_BASE_DIR\bert_model.ckpt --max_seq_length=128 --train_batch_size=4 --learning_rate=2e-5 --num_train_epochs=3.0 --output_dir=/tmp/mrpc_output/ 官方output: ***** Eval results ***** eval_accuracy = 0.845588 eval_loss = 0.505248 global_step = 343 loss = 0.505248 本次复现output: ***** Eval results ***** eval_accuracy = 0.5955882 eval_loss = 0.6890294 global_step = 2751 loss = 0.6890294
2021-10-13 22:01:55 395.02MB TF2 BERT MRPC
1
bert预训练模型tensorflow版本转为pytorch版本的脚本文件,使用时记得更改文件路径以及文件名。
2021-10-13 10:07:09 244KB pytorch bert tensorflow
1
XLNet-Pytorch 使用Pytorch包装器可轻松实现XLNet! 您可以看到XLNet Architecture如何以小批量(= 1)进行预训练的示例。 用法 $ git clone https://github.com/graykode/xlnet-Pytorch && cd xlnet-Pytorch # To use Sentence Piece Tokenizer(pretrained-BERT Tokenizer) $ pip install pytorch_pretrained_bert $ python main.py --data ./data.txt --tokenizer bert-base-uncased \ --seq_len 512 --reuse_len 256 --perm_size 256 \ --bi_data True --mask_alpha 6 --mask_beta 1 \ --num_predict 85 --mem_len 384 --num_epoch 100 另外,您可以轻松地在运行代码。 纸中预训练的
2021-10-12 09:54:59 545KB nlp natural-language-processing pytorch bert
1
使用Google bert for RoBERTa 首先,使用convert_pytorch_checkpoint_to_tf.py转换wieght 二,编辑配置文件 第三,修改后的模型:using_token_type = False start = 2 第四,将bert令牌生成器更改为roberta令牌生成器
2021-10-08 19:38:17 174KB 系统开源
1
基于bert预训练模型和pytorch深度学习框架实现文本分类
1
中文-DeepNER-Pytorch 天池中药说明书实体识别挑战冠军方案开源 贡献者: zxx飞翔​​的鱼: : 我是蛋糕王: : 数青峰: : 后续官方开放数据集后DeepNER项目会进行优化升级,包含完整的数据处理,训练,验证,测试,部署流程,提供详细的代码注释,模型介绍,实验结果,提供更普适的基础预训练的中文命名实体识别方案,开箱即用,欢迎星级! (代码框架基于火炬和变压器,框架进行性,解耦性,易读性较高,很容易修改迁移至其他NLP任务中) 环境 python3 . 7 pytorch == 1.6 . 0 + transformers == 2.10 . 0 pytorch - crf == 0.7 . 2 项目目录说明 DeepNER │ ├── data # 数据文件夹 │ ├── mid
2021-10-07 23:10:39 3.04MB Python
1
Use google BERT to do CoNLL-2003 NER !
2021-10-06 20:55:14 2.09MB Python开发-机器学习
1
为了获得更好的性能,您可以尝试NLPGNN,有关更多详细信息,请参见 。 BERT-NER版本2 使用Google的BERT进行命名实体识别(CoNLL-2003作为数据集)。 原始版本(有关更多详细信息,请参见old_version)包含一些硬代码,并且缺少相应的注释,因此不方便理解。 因此,在此更新版本中,有一些新的想法和技巧(关于数据预处理和图层设计)可以帮助您快速实现微调模型(您只需尝试修改crf_layer或softmax_layer)。 资料夹说明: BERT-NER |____ bert # need git from [h
2021-10-06 20:26:59 2.09MB tensorflow ner bert conll-2003
1