GPT-2的中文预训练模型。GPT-2是逆天的语言AI模型,编故事以假乱真,问答翻译写摘要都行。问世之后横扫各大语言建模任务,引发了大量关注以及研究者跟进研究。
2021-11-19 00:26:42 757KB gpt2 训练模型
1
GPT2-新闻标题 带有超详细注释的GPT2新闻标题生成项目 更新日期01.02.2021 从网上收集数据,将清华新闻数据,搜狗新闻数据等新闻数据集,以及开源的一些摘要数据进行整理清洗,制作一个较完善的中文摘要数据集。 数据集清洗时,仅进行了简单地规则清洗。例如:清洗htlm标记,去除多余的空字符,去除图片标记等。 处理后数据集详细信息,见 数据 原始数据/项目地址 处理后文件下载地址 清华新闻数据 提取码:vhol 搜狗新闻数据 提取码:ode6 nlpcc2017摘要数据 提取码:e0zq csl摘要数据 提取码:0qot 教育培训行业摘要数据 提取码:kjz3 lcsts摘要数据
2021-11-19 00:21:50 286KB nlp text-generation torch transformer
1
GPT-2 PyTorch实施 目录 介绍 该项目是OpenAI GPT-2模型的PyTorch实现。 它提供模型训练,句子生成和量度可视化。 它被认为是可以理解和优化的。 我们设计的代码易于理解。 另外,我们使用来提高性能。 依存关系 正则表达式 tqdm 火炬 麻木 matplotlib 用法 怎么训练? 在训练GPT-2模型之前,应准备语料库数据集。 我们建议使用构建自己的语料库。 相反,训练模块需要带有词汇表文件的标记化训练和评估数据集。 准备数据集后,可以使用以下方法训练GPT-2: $ python -m gpt2 train --train_corpus build/corpus.train.txt \ --eval_corpus build/corpus.test.txt \
1
Flask Web应用程序,用于使用生成文本 GPT-2是一种非常庞大的语言模型,被认为过于危险而无法发布其完整版本,可以根据其输入生成接近人类水平的逼真的文本。 作者决定只发布“功能不足”(117M参数)版本。 抛开争议,让我们四处看看,看看较小的模型可以用这个程序做什么。 提交了初始文本后,该应用程序将继续讲述该故事,并希望您能百无一失。 系好安全带。 :P 演示版 这是当前部署在我的个人开发Ubuntu服务器上的容器上的应用程序的快照,该容器在上资源有限。 您可以在启用Docker的任何地方设置并运行一个。 另外,请确保不要在生产环境中使用开发服务器。 用法 克隆存储库。 $ gi
2021-09-13 14:48:14 847KB python flask tensorflow FlaskPython
1
使用GPT2生成文本摘要 Blog上随附代码。 数据集准备 分别为CNN和Daily Mail Tokenized文章运行max_article_sizes.py。 它将创建每个CNN / DAILY MAIL文章大小的泡菜文件。 $ python max_article_sizes.py path/to/cnn_or_dailymail/tokenized/articles 运行以下命令以准备包含标记化文章和摘要的json文件 $ python prepare_data.py path/to/pickle_file/of/articles/sizes/created/using/above/command 训练 使用预先训练的权重,使用PyTorch上对数据技巧,对GPT2模型进行。 $ python train_gpt2_summarizer.py --batch_size
2021-09-02 15:29:32 13.38MB JupyterNotebook
1
预训练模型专题_GPT2_模型代码学习笔记-附件资源
2021-08-29 17:55:07 106B
1
| | | :party_popper: :party_popper: :party_popper: 我们发布了带有TF2支持的2.0.0版本。 :party_popper: :party_popper: :party_popper: 如果您将此项目用于研究,请引用: @misc{Kashgari author = {Eliyar Eziz}, title = {Kashgari}, year = {2019}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {\url{https://github.com/BrikerMan/Kashgari}} } 总览 Kashgari是一个简单而强大的NLP Transfer学
1
GPT2-Chinese 附带科幻书籍语料 无权重
2021-05-11 09:09:33 6.33MB GPT2
1
finetune-gpt2xl 在单个16 GB VRAM V100 Google vm上微调GPT2-XL(15亿个参数)。
2021-03-27 20:21:01 49KB Python
1