WoBERT:以词为基本单位的中文BERT-源码

Python

沃伯特以词为基本单位的中文BERT（基于单词的BERT）详情训练目前开源的WoBERT是基本版本，在哈工大开源的基础上进行继续预训练，预训练任务为MLM。初始化阶段，将每个词用BERT自带的Tokenizer切分为字，然后用模型使用单张24G的RTX训练了100万步（大概训练了10天），序列长度为512，学习5e-6，batch_size为16，累积梯度16步，，等于batch_size = 256训练了6万步左右。训练语料大概是30多G的通用型语料。此外，我们还提供了WoNEZHA，这是基于华为开源的进行再预训练的，训练细节跟WoBERT基本一样。NEZHA的模型结构跟BERT相似，不同的是它使用了相对位置编码，而BERT用的是绝对位置编码，因此理论上NEZHA能处理的文本长度是无上限的。这里提供以词为单位的WoNEZHA，就是让大家多一个选择。 2021年03月03日：添加

文件下载

资源详情

[{"title":"（ 8 个子文件 18KB ） WoBERT:以词为基本单位的中文BERT-源码","children":[{"title":"WoBERT-master","children":[{"title":"LICENSE 11.09KB ","children":null,"spread":false},{"title":"README.md 2.34KB ","children":null,"spread":false},{"title":"test","children":[{"title":"csl.py 5.77KB ","children":null,"spread":false},{"title":"iflytek.py 4.32KB ","children":null,"spread":false},{"title":"lcsts.py 5.78KB ","children":null,"spread":false},{"title":"sentiment.py 3.95KB ","children":null,"spread":false},{"title":"tnews.py 4.44KB ","children":null,"spread":false}],"spread":true},{"title":"train.py 5.90KB ","children":null,"spread":false}],"spread":true}],"spread":true}]

评论信息

其他资源

免责申明

【只为小站】的资源来自网友分享，仅供学习研究，请务必在下载后24小时内给予删除，不得用于其他任何用途，否则后果自负。基于互联网的特殊性，【只为小站】无法对用户传输的作品、信息、内容的权属或合法性、合规性、真实性、科学性、完整权、有效性等进行实质审查；无论【只为小站】经营者是否已进行审查，用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。
本站所有资源不代表本站的观点或立场，基于网友分享，根据中国法律《信息网络传播权保护条例》第二十二条之规定，若资源存在侵权或相关问题请联系本站客服人员，zhiweidada#qq.com，请把#换成@，本站将给予最大的支持与配合，做到及时反馈和处理。关于更多版权及免责申明参见版权及免责申明

WoBERT:以词为基本单位的中文BERT-源码

文件下载

资源详情

评论信息

其他资源

免责申明

个人信息

热门下载

最新下载