非官方的PyTorch实现 Kevin Clark的。 Minh-Thang Luong。 Quoc V. Le。 克里斯托弗·曼宁 复制结果 我从头开始对ELECTRA-small进行了预培训,并已在GLUE上成功复制了论文的结果。 模型 可乐 SST MRPC STS QQP MNLI 秦皇岛 RTE 平均的平均值 电子小OWT 56.8 88.3 87.4 86.8 88.3 78.9 87.9 68.5 80.36 ELECTRA-Small-OWT(我) 58.72 88.03 86.04 86.16 88.63 80.4 87.45
2022-10-18 21:47:16 52KB nlp glue pytorch deeplearning
1
伊莱克特拉-火炬 详细介绍了一种用于快速训练语言模型的简单工作包装。 与普通的屏蔽语言建模相比,它可以将训练速度提高4倍,并且如果训练时间更长,最终可以达到更好的性能。 特别感谢抽出时间为GLUE复制了结果。 安装 $ pip install electra-pytorch 用法 以下示例使用了reformer-pytorch ,可以通过pip安装。 import torch from torch import nn from reformer_pytorch import ReformerLM from electra_pytorch import Electra # (1) instantiate the generator and discriminator, making sure that the generator is roughly a quarter to a half
1
electra的预训练模型改进
2021-08-06 13:03:09 131KB 文本生成
1
| 简体中文 pycorrector 中文文本纠错工具。音似、形似错字(或变体字)纠正,可用于中文拼音、笔画输入法的错误纠正。python3.6开发。 pycorrector依据语言模型检测错别字位置,通过拼音音似特征、笔画五笔编辑距离特征及语言模型困惑度特征纠正错别字。 Guide Question 中文文本纠错任务,常见错误类型包括: 谐音字词,如 配副眼睛-配副眼镜 混淆音字词,如 流浪织女-牛郎织女 字词顺序颠倒,如 伍迪艾伦-艾伦伍迪 字词补全,如 爱有天意-假如爱有天意 形似字错误,如 高梁-高粱 中文拼音全拼,如 xingfu-幸福 中文拼音缩写,如 sz-深圳 语法错误,如 想象难以-难以想象 当然,针对不同业务场景,这些问题并不一定全部存在,比如输入法中需要处理前四种,搜索引擎需要处理所有类型,语音识别后文本纠错只需要处理前两种, 其中'形似字错误'主要针对五笔或者笔画手
2021-07-15 12:34:01 13.6MB bert spelling-errors electra error-detection
1
ELECTRA 中文 预训练 ELECTREA 模型: 基于对抗学习 pretrain Chinese Model code Repost from google official code: 具体使用说明:参考 官方链接 Electra Chinese tiny模型路径 google drive electra-tiny baidu drive electra-tiny code:rs99 模型说明 与 tinyBERT 的 配置相同 generator 为 discriminator的 1/4 How to use official code Steps 修改 configure_pretraining.py 里面的 数据路径、tpu、gpu 配置 修改 model_size:可在 code/util/training_utils.py 里面 自行定义模型大小 数据输入格式:原始的
1
chinese-electra-base.pdparams
2021-04-29 22:07:17 390.14MB ai
1