RNN莎士比亚文本生成 该网络应用程序使用LSTM训练莎士比亚的数据,并创建一种语言模型,以莎士比亚的风格生成文本。 RNN(递归神经网络) 递归神经网络(RNN)是一类人工神经网络,对于建模序列数据(例如时间序列或自然语言)具有强大的功能。 与RNN相比,香草神经网络有一个缺点,它们无法解决需要记住有关过去输入信息的机器学习问题。 在处理顺序数据时,记住数据中的关系是关键,而普通的CNN并不擅长长度可变的输入和输出。 因此,我正在使用RNN进行文本生成。 我使用一种称为LSTM的特殊RNN,它可以处理非常大的数据序列。 简单的RNN有一个称为消失梯度问题的问题,因此它们无法处理大序列。 LSTM旨在处理长期依赖关系。 开发环境 烧瓶== 1.1.2 Werkzeug == 1.0.1 张量流CPU 麻木 古尼康
2023-04-18 22:38:20 19.35MB HTML
1
文本生成keras 使用CNN和GRU层的Keras文本生成实现
2023-02-16 18:21:26 96KB text keras text-generation gru
1
CommonGen:面向生成常识推理的受限文本生成挑战 @article{lin2019comgen, author = {Bill Yuchen Lin and Wangchunshu Zhou and Ming Shen and Pei Zhou and Chandra Bhagavatula and Yejin Choi and Xiang Ren}, title = {CommonGen: A Constrained Text Generation Challenge for Generative Commonsense Reasoning}, journal = {Findings of EMNLP}, year = {2020} } CommonGen是一个新的受约束文本生成数据集,它需要不同种类的常识来生成有关日常场景的句子,并因此针对生成型
1
CDial GPT 本项目提供了一个大规模中文对话数据集,并提供了在此数据集上的中文对话预训练模型(中文GPT模型),更多信息可参考我们的。 本项目代码修改自 ,使用了HuggingFace Pytorch版的库,可用于预训练与微调。 目录 消息 2021-02-28:一个,欢迎大家提bug和加速优化算法,以及新的清洗功能等等。 2021-01-09:实验室出版新书 ,欢迎大家阅读购买。 2020-11-20:预训练模型新工作 。本工作将词级的语言学知识(包括词性和词的情感极性)。表示模型SentiLARE,欢迎大家使用。 2020-10-18:我们的论文《大规模中文短文本对话数据集》获得了NLPCC2020最佳学生论文奖。 :party_popper: :party_popper: :party_popper: 2020-09-08:感谢所提供的。 2020-09-02:可用加载,感谢苏剑林提供代码。 我们所提供的数据集LCCC(大规模汉语清洁会话
2022-11-30 10:21:23 715KB dialogue text-generation pytorch gpt
1
NLP_pytorch_project 1-聊天机器人 001-transformer_chatbot 实现方式是标准的transformer。 002-bert_chatbot 参考UNILM 2嵌入 001-skipgram-word2vec.py 002-bert.py 003-albert.py 004-NPLM.py 3-NMT 001-transformer_NMT 002-gru_seq2seq_attention 003-lstm_seq2seq_attention 4文本分类 001-TextCNN.py 002-BILSTM+Attention.py 003-CharCNN 004-BERT_Classification 005-ERNIE_Classification 006-ALB
2022-06-14 17:54:50 71.2MB text-classification chatbot mrc text-generation
1
GPT2,用于中文聊天 更新2020.01.09 添加50w闲聊语料与预训练模型的GoogleDrive的下载地址 更新2019.12.17 基于微软的论文添加了MMI模型(最大互信息评分功能),对对话模型生成了多个响应进行筛选 项目描述 本项目使用GPT2模型对中文闲聊语料进行训练,使用HuggingFace的实现GPT2模型的编写与训练。 在闲暇时间用模型训练了几个长文本的生成模型,并且精读了一遍作者的源码,除了匪浅,加深了自己对GPT2生成模型的一些理解,于是将GPT2模型用作闲聊对话的生成,非常感谢作者的分享。 本项目中沿用了原项目中的部分结构和一些命名方式,同时也对很多代码细节做了了自己的实现。 解码器的逻辑使用了温度,Top-k采样和核采样等,可参考论文 根据微软的DialoGPT的思想,在项目中添加了互信息。训练了两个模型:Dialogue Model与MMI Model(最大互信息评分功能)。首先使用Dialogue Model生成多个响应,然后使用MMI Model从先前response中,拾取损耗最小的作为最终的response 代码中称为了很多详细的中文注释,方便
2022-01-17 18:03:53 73KB nlp text-generation transformer gpt-2
1
GPT2-新闻标题 带有超详细注释的GPT2新闻标题生成项目 更新日期01.02.2021 从网上收集数据,将清华新闻数据,搜狗新闻数据等新闻数据集,以及开源的一些摘要数据进行整理清洗,制作一个较完善的中文摘要数据集。 数据集清洗时,仅进行了简单地规则清洗。例如:清洗htlm标记,去除多余的空字符,去除图片标记等。 处理后数据集详细信息,见 数据 原始数据/项目地址 处理后文件下载地址 清华新闻数据 提取码:vhol 搜狗新闻数据 提取码:ode6 nlpcc2017摘要数据 提取码:e0zq csl摘要数据 提取码:0qot 教育培训行业摘要数据 提取码:kjz3 lcsts摘要数据
2021-11-19 00:21:50 286KB nlp text-generation torch transformer
1
生成结果示例 斗破苍穹续写: 萧炎对这威胁之话还是感到陌生,若非他灵魂力量同样不弱的话,恐怕早就忍不住的出手了。 “呵呵,小家伙,既然你已经晋入了斗宗层次,那我也不再有半点留手,你体内的那种能量,应该也是处于天境后期吧?”萧炎一笑,在提醒了一声后,便是再度闭目养神。 听得萧炎这话,一旁的薰儿眼眸也是微微眯了起来,她知道萧炎体内,有着一个古怪的内院存在,如今好不容易得到异火,却是根本就没有半点的可信性。 “那便继续等,他们继续出手!” 萧炎咬着牙,手印变动,体内斗气顿时在身体表面翻腾而起,旋即一个奇异的符文缓缓出现在其手掌上,漆黑的眸子中,闪烁着森寒之色。 “萧炎哥哥,恭喜你了,萧族的事,交给我便好。” 听得萧炎那般淡淡的话语,薰儿脸颊也是微变,缓缓的道。 “我倒是希望你能走到今天的”萧炎笑了笑,他知道薰儿嘴中所说的那一句话,或许便是最好的事。 “我知道你对自己迁移到你的身体有些不太满意吧?
2021-11-18 10:56:05 25.91MB Python
1
NLP项目 自然语言处理项目,其中包括有关以下方面的概念和脚本: gensim , fastText和tensorflow实现。 参见, doc2vec , word2vec averaging和Smooth Inverse Frequency实现 对话系统的类别和组成 tensorflow LSTM (请参阅 ,和 , ) fastText实现 ELMo,ULMFit,GPT,BERT,XLNet的原理 HMM Viterbi实现。 参见,中文解读 Named_Entity_Recognition 通过双向LSTM + CRF,张量tensorflow实现对NER品牌。 参见中文注释,中文解读 7_Information_retrieval 8_Information_extraction 9_Knowledge_graph 10_Text_generation 11
1
lstm-text-generation 文本生成(Word2Vec + RNN/LSTM) 目录: input : 输入文件数据 1.char_LSTM.py : 以字母为维度 预测下一个字母是什么 2.word_LSTM.py : 以单词为维度,预测下一个单词是是什么 char_LSTM.py 用RNN做文本生成,我们这里用温斯顿丘吉尔的任务传记作为我们的学习语料。 英文的小说语料可以从古登堡计划网站下载txt平文本:) 这里我们采用keras简单的搭建深度学习模型进行学习。 word_LSTM.py 跟上一个模型一样,只不过使用的word2vec对语料构建词向量,预测下一个单词。
2021-09-30 18:02:54 3.78MB Python
1