PyTorch的Bert多标签文本分类 此仓库包含用于多标签文本分类的预训练BERT和XLNET模型的PyTorch实现。 代码结构 在项目的根目录,您将看到: ├── pybert | └── callback | | └── lrscheduler.py   | | └── trainingmonitor.py  | | └── ... | └── config | | └── basic_config.py #a configuration file for storing model parameters | └── dataset    | └── io
2021-08-27 20:41:49 154KB nlp text-classification transformers pytorch
1
生成词向量的神经网络模型分为两种,一种是像word2vec,这类模型的目的就是生成词向量,另一种是将词向量作为副产品产生,两者的区别在于计算量不同。若词表非常庞大,用深层结构的模型训练词向量需要许多计算资源。
2021-08-27 18:07:09 31.79MB 人工智能 nlp 深度学习
1
Seq2Seq技术,全称Sequence to Sequence,它被提出于2014年,最早由两篇文章独立地阐述了它主要思想,分别是Google Brain团队的《Sequence to Sequence Learning with Neural Networks》和Yoshua Bengio团队的《Learning Phrase Representation using RNN Encoder-Decoder for Statistical Machine Translation》。这两篇文章不谋而合地提出了相似的解决思路,Seq2Seq由此产生。 ———————————————— 版权声明:本文为CSDN博主「我把梦想卖了,换成了柴米油盐」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。 原文链接:https://blog.csdn.net/leva345/article/details/119755540
2021-08-27 18:07:09 7.08MB 人工智能 nlp
1
通过Word2vec计算两个英语单词间的语义相似度(使用GoogleNews-vectors-negative300.bin) bin文件太大无法上传,Word2vec.ipynb里有网盘地址可以直接下载
2021-08-27 18:03:44 40KB NLP
1
Infomap NLP软件使用LSA的变体来执行自由文本语料库中单词和文档的自动索引,以启用信息检索和其他应用程序。 它是由斯坦福大学CSLI的Infomap项目开发的。
2021-08-26 11:38:32 223KB 开源软件
1
首届中文NL2SQL挑战赛 :warning:由于可能存在的版权问题,请自行联系竞赛平台或主办方索要竞赛数据,谢谢! :light_bulb:代码运行环境至文末 成绩 本项目所采用的方案在复赛中的线上排名为第5,最终最终成绩排名第3。 主分类下一个代码以jupyter notebook的形式呈现,以学习交流为目的,对原始代码经过一定的整理,并不会完全复现在线上的结果,但效果不会差太多。 代码目录下的与为建模流程, nl2sql/utils目录则包含该任务所需的一些基础函数和数据结构。 致谢 感谢追一科技的孙宁远对本次比赛做了细致的赛前辅导 感谢追一科技研究员,博主苏剑林,分享了大量关于NLP方面的优质博文本方案受到了。。
1
用于brat安装,启动服务,然后NLP进行BIO标注
2021-08-25 09:14:16 31.07MB NLP brat bio
1
打包分享一批数据集,用于NLP学习和研究的同学们做语料分析,情感分析,舆情分析等任务时使用,一共包括三个系列 glove.6B,glove.42B,glove.twitter.27B
2021-08-24 21:48:37 831B NLP 语料分析 glove.6B glove.42B
1
伯特相似度 基于Google的BERT模型来进行语义相似度计算。代码基于tensorflow 1。 1.基本原理 简单来说就是将需要需要计算的相似性的两个句子先分解在一起,然后通过伯特模型获取获取整体的编码信息,然后通过全连接层将维,输出相似和不相似的概率。 1.1模型结构 模型结构所示如下: 1.1.1数据预处理 本文使用Bert模型计算相似度前,首先要对输入数据进行预处理,例如当要处理的文本是: 如何得知关闭借呗 想永久关闭借呗 首先进行文本按token化,切成分割的文字排列: [如 何 得 知 关 闭 借 呗] [想 永 久 关 闭 借 呗] 然后将两个切分后的句子,按照如下的方式
2021-08-24 18:33:00 2.82MB python nlp semantic tensorflow
1
MacBERT:重新审视中文自然语言处理的预训练模型(EMNLP的发现)
2021-08-23 22:55:02 128KB nlp tensorflow language-model bert
1