字形:用于汉字表示的字形向量 Glyce是一个基于PyTorch的开源工具包,由开发。 引文 出现在NeurIPS 2019中。 (孟梦娴*,吴伟*,王飞*,李小亚*,聂平,范茵,李牧雨,韩庆红,孙晓飞和李继伟,2019) @article{meng2019glyce, title={Glyce: Glyph-vectors for Chinese Character Representations}, author={Meng, Yuxian and Wu, Wei and Wang, Fei and Li, Xiaoya and Nie, Ping and Yin, Fan and
2021-06-14 19:42:58 136.29MB nlp bert glyce NaturallanguageprocessingPython
1
基于BERT的蒸馏实验 参考论文《从BERT提取任务特定的知识到简单神经网络》 分别采用keras和pytorch基于textcnn和bilstm(gru)进行了实验 实验数据分割成1(有标签训练):8(无标签训练):1(测试) 在情感2分类服装的数据集上初步结果如下: 小模型(textcnn&bilstm)准确率在0.80〜0.81 BERT模型准确率在0.90〜0.91 蒸馏模型准确率在0.87〜0.88 实验结果与论文某些基本一致,与预期相符 后续将尝试其他更有效的蒸馏方案 使用方法 首先finetune BERT python ptbert.py 然后把BERT的知识蒸馏到小模型里
2021-06-10 13:46:28 30.23MB nlp classification bert distillation
1
一行代码使用BERT生成句向量,BERT做文本分类、文本相似度计算
2021-06-03 21:39:07 2.97MB BERT
1
贝特维兹 BertViz是用于可视化Transformer模型中注意力的工具,支持库中的所有模型(BERT,GPT-2,XLNet,RoBERTa,XLM,CTRL等)。 它扩展了的以及的库。 资源资源 :joystick_selector: :writing_hand_selector: :open_book: 总览 正面图 头部视图可视化给定转换器层中一个或多个注意头产生的注意模式。 它基于出色的。 尝试此 其中已预加载了头部视图。 头部视图支持Transformers库中的所有模型,包括: BERT: GPT-2: XLNet: RoBERTa: XLM: 阿尔伯特: DistilBERT: (和别的) 模型视图 模型视图提供了对模型所有层和头部的关注的鸟瞰图。 试用此 其中已预加载了模型视图。 模型视图支持Transformers库中的所有模型,包括: BERT: GPT2: XLNet: RoBERTa: XLM: 阿尔伯特: DistilBERT: (和别的) 神经元视图 神经元视图将查询和键向量中的单个神经元可视化,并
1
沃伯特 以词为基本单位的中文BERT(基于单词的BERT) 详情 训练 目前开源的WoBERT是基本版本,在哈工大开源的基础上进行继续预训练,预训练任务为MLM。初始化阶段,将每个词用BERT自带的Tokenizer切分为字,然后用模型使用单张24G的RTX训练了100万步(大概训练了10天),序列长度为512,学习5e-6,batch_size为16,累积梯度16步,,等于batch_size = 256训练了6万步左右。训练语料大概是30多G的通用型语料。 此外,我们还提供了WoNEZHA,这是基于华为开源的进行再预训练的,训练细节跟WoBERT基本一样。NEZHA的模型结构跟BERT相似,不同的是它使用了相对位置编码,而BERT用的是绝对位置编码,因此理论上NEZHA能处理的文本长度是无上限的。这里提供以词为单位的WoNEZHA,就是让大家多一个选择。 2021年03月03日:添加
2021-06-02 16:14:18 18KB Python
1
pytorch实现的中文bert预训练模型bert-base-chinese,可用于中文短文本分类,问答系统等各种NLP任务(网盘链接)
2021-06-02 15:51:20 233B pytorch bert chinese
1
凯拉斯·伯特 [| ] 实现。 可以加载官方的预训练模型以进行特征提取和预测。 安装 pip install keras-bert 用法 使用热身 下载预先训练的检查点 提取功能 外部链接 Kashgari是可用于文本标签和文本分类的生产就绪NLP转移学习框架 凯拉斯·阿尔伯特 加载官方预训练模型 在特征提取演示中,您应该能够获得与官方模型chinese_L-12_H-768_A-12相同的提取结果。 并且在预测演示中,可以预测句子中丢失的单词。 在TPU上运行 提取演示演示了如何转换为在TPU上运行的模型。 分类演示显示了如何将模型应用于简单的分类任务。 分词器 Tokenizer类用于拆分文本并生成索引: from keras_bert import Tokenizer token_dict = { '[CLS]' : 0 , '[SEP]' : 1
2021-05-31 20:20:47 1.22MB keras language-model bert Python
1
bert_chinese_pytorch 参考代码: CSDN博文(施工中):
2021-05-29 18:17:42 8KB 附件源码 文章源码
1
BERT的最好的朋友。 安装 Ernie需要Python 3.6或更高版本。 pip install ernie 微调 句子分类 from ernie import SentenceClassifier , Models import pandas as pd tuples = [( "This is a positive example. I'm very happy today." , 1 ), ( "This is a negative sentence. Everything was wrong today at work." , 0 )] df = pd . D
2021-05-28 15:48:32 201KB nlp natural-language-processing tensorflow keras
1
Bert-Chinese-Text-Classification-Pytorch 中文文本分类,Bert,ERNIE,基于pytorch,开箱即用。 介绍 模型介绍、数据流动过程:还没写完,写好之后再贴博客地址。 工作忙,懒得写了,类似文章有很多。 机器:一块2080Ti , 训练时间:30分钟。 环境 python 3.7 pytorch 1.1 tqdm sklearn tensorboardX pytorch_pretrained_bert(预训练代码也上传了, 不需要这个库了) 中文数据集 我从中抽取了20万条新闻标题,已上传至github,文本长度在20到30之间。一共10个类别,每类2万条。数据以字为单位输入模型。 类别:财经、房产、股票、教育、科技、社会、时政、体育、游戏、娱乐。 数据集划分: 数据集 数据量 训练集 18万 验证集 1万 测试集 1万 更换自己的数据集 按照
2021-05-27 22:00:01 6.11MB 附件源码 文章源码
1