语言模型预训练已经显示出可以捕获数量惊人的世界知识,这对于NLP任务(例如问题 解答)至关重要。但是,此知识隐式存储在神经网络的参数中,需要更大的网络才能 覆盖更多的事实。 为了以更模块化和可解释的方式捕获知识,我们使用潜在的知识检索器增强了语言模 型的预训练,检索器使模型可以从预训练、微调和推理期间使用的大型语料库(如 Wikipedia)中检索并使用文档。首次,我们展示了如何使用蒙版语言建模作为学习信 号并通过考虑数百万个文档的检索步骤进行反向传播,从而以无监督的方式对这种知 识检索器进行预训练。 我们通过微调开放域问答(Open-QA)的挑战性任务,证明了检索增强语言模型预训练 (REALM)的有效性。我们在三个流行的Open-QA基准测试中与最先进(SOTA)的显式和隐 式知识存储模型进行了比较,发现我们在性能上优于所有以前的方法(绝对精度为 4-16%),同时还提供了定性优势,例如可解释性和模块化。
2022-10-14 00:25:44 727KB 自然语言处理 REALM 预训练 问答
1
1 Billion Word Language Model Benchmark R13 Output 是一套新的基准语料库,被用于衡量和统计语言建模进展,凭借近 10 亿字的培训数据,该基准测试可以快速评估新的语言建模技术,并将其与其他新技术相结合。 该数据集由康奈尔大学于 2013 年发布,主要发布人有 Ciprian Chelba、Tomas Mikolov、Mike Schuster、Qi Ge、Thorsten Brants、Phillipp Koehn 和 Tony Robinson。
2022-07-13 16:05:40 1.69GB 数据集
半监督序列学习 此回购记录了重现论文给出的结果的实验​​。 简而言之,我们在未标记的文本数据上对序列自动编码器或语言模型进行预训练,然后使用标记的文本数据对使用预训练权重初始化的基于RNN的序列分类器进行微调,与随机初始化的权重相比,分类精度更高。 资料准备 IMDB数据集 我们为此实验使用。 下载并解压缩,导航至目录aclImdb/train ,该目录aclImdb/train中包含带aclImdb/train/pos的正( aclImdb/train/pos )和带标签的负性( aclImdb/train/neg )以及未标签的评论( aclImdb/train/unsup )。 然后cd进入每个子目录并运行 for f in *.txt; do (cat "${f}"; echo) >> pos.txt; done for f in *.txt; do (cat "${f}"; ec
1
ALBERT-蒙古语 这个 repo 提供了在蒙古语文本语料库上训练的预训练 ALBERT 模型(BERT 的“A Lite”版本)和 SentencePiece 模型(无监督文本分词器和去分词器)。 内容: 用法 您可以使用库在 PyTorch 和 TensorFlow2.0 中使用 。 import torch from transformers import AlbertTokenizer , AlbertForMaskedLM tokenizer = AlbertTokenizer . from_pretrained ( 'bayartsogt/albert-mongolian' ) model = AlbertForMaskedLM . from_pretrained ( 'bayartsogt/albert-mongolian' ) 教程 [Colab]在 Colab
2021-11-29 20:39:04 186KB transformers language-model albert mongolian
1
语言模型和自动人格预测 该存储库包含论文“ 代码,该论文发表在2020年IEEE国际数据挖掘大会上。 这是一组用tensorflow + pytorch编写的实验,旨在探索Essays数据集(使用Big-五个人格标记的特征)和Kaggle MBTI数据集上使用语言模型进行自动人格检测。 安装 通过以下方式从GitLab提取此存储库: git clone git@gitlab.com:ml-automated-personality-detection/personality.git 有关可通过以下方式安装的相关软件包的列表,请参见requirements.txt: pip -r requirements.txt 用法 首先运行LM提取器代码,该代码将数据集通过语言模型传递,并将(所有图层的)嵌入存储在pickle文件中。 创建此“新数据集”可为我们节省大量计算时间,并允许有效搜索超
1
DeepSpeech剧本 使用DeepSpeech训练语音识别模型的速成班。 快速链接 从这里开始。 本部分将设定您对DeepSpeech手册可以实现的目标的期望,以及开始训练自己的语音识别模型所需的先决条件。 了解了DeepSpeech Playbook可以实现的功能后,本节将概述DeepSpeech本身,其组成部分以及它与您过去使用过的其他语音识别引擎的不同之处。 之前,你可以训练一个模型,你需要收集和格式化数据的语料库。 本节概述了DeepSpeech所需的数据格式,并逐步介绍了从Common Voice准备数据集的示例。 如果您正在训练使用与英语不同的字母(例如带有变音符号的语言)的模型,那么您将需要修改alphabet.txt文件。 了解得分手的工作,以及如何建立自己的得分手。 了解DeepSpeech的声学模型和语言模型之间的差异,以及它们如何组合以提供端到端语音识别。 本节
1
MacBERT:重新审视中文自然语言处理的预训练模型(EMNLP的发现)
2021-08-23 22:55:02 128KB nlp tensorflow language-model bert
1
NeZha_Chinese_PyTorch pytorch版NEZHA,适配transformers 论文下载地址: 运行脚本依赖模块 如果需要运行该案例脚本,需要安装以下模块: 模型权重下载 官方提供的Tensorflow版本权重下载地址: 已经转化为PyTorch版本权重下载地址如下: nezha-cn-base 提取码: hckq nezha-large-zh 提取码: qks2 nezha-base-wwm 提取码: ysg3 nezha-large-wwm 提取码: 8dig 说明:若加载的模型权重是从下列百度网盘下载的PyTorch模型权重,则需要保证torch版本>=1.6.0 运行 执行命令: sh scripts/run_task_text_classification_chnsenti.sh 长文本 长文本可以通过设置config.max_position_em
2021-07-09 02:36:37 19KB pytorch chinese language-model nezha
1
凯拉斯·伯特 [| ] 实现。 可以加载官方的预训练模型以进行特征提取和预测。 安装 pip install keras-bert 用法 使用热身 下载预先训练的检查点 提取功能 外部链接 Kashgari是可用于文本标签和文本分类的生产就绪NLP转移学习框架 凯拉斯·阿尔伯特 加载官方预训练模型 在特征提取演示中,您应该能够获得与官方模型chinese_L-12_H-768_A-12相同的提取结果。 并且在预测演示中,可以预测句子中丢失的单词。 在TPU上运行 提取演示演示了如何转换为在TPU上运行的模型。 分类演示显示了如何将模型应用于简单的分类任务。 分词器 Tokenizer类用于拆分文本并生成索引: from keras_bert import Tokenizer token_dict = { '[CLS]' : 0 , '[SEP]' : 1
2021-05-31 20:20:47 1.22MB keras language-model bert Python
1
ELECTRA 中文 预训练 ELECTREA 模型: 基于对抗学习 pretrain Chinese Model code Repost from google official code: 具体使用说明:参考 官方链接 Electra Chinese tiny模型路径 google drive electra-tiny baidu drive electra-tiny code:rs99 模型说明 与 tinyBERT 的 配置相同 generator 为 discriminator的 1/4 How to use official code Steps 修改 configure_pretraining.py 里面的 数据路径、tpu、gpu 配置 修改 model_size:可在 code/util/training_utils.py 里面 自行定义模型大小 数据输入格式:原始的
1