针对词向量文本分类模型记忆能力弱, 缺少全局词特征信息等问题, 提出基于宽度和词向量特征的文本分类模型(WideText): 首先对文本进行清洗、分词、词元编码和定义词典等, 计算全局词元的词频-逆文档频度(TF-IDF)指标并将每条文本向量化, 将输入文本中的词通过编码映射到词嵌入矩阵中, 词向量特征经嵌入和平均叠加后, 和基于TF-IDF的文本向量特征进行拼接, 传入到输出层后计算属于每个分类的概率. 该模型在低维词向量的基础上结合了文本向量特征的表达能力, 具有良好的泛化和记忆能力. 实验结果表明, 在引入宽度特征后, WideText分类性能不仅较词向量文本分类模型有明显提升, 且略优于前馈神经网络分类器.
2022-01-07 09:59:39 995KB Word2Vec FastText WideText 文本分类
1
使用fasttext工具实现word2vec的数据集enwik9
2022-01-03 18:04:08 953.67MB python NLP
著名的fasttext词向量,上Billion个词,每个词N维,可用于深度模型初始化,BERT之后仍有其价值
2021-11-23 12:45:55 760.15MB NLP
1
TextClassification-Keras 这个代码库实现了一个各种深学习模型使用Keras框架,其中包括文本分类:FastText,TextCNN,TextRNN,TextBiRNN,TextAttBiRNN,韩,RCNN,RCNNVariant等除了模型实现,简化应用程序包括在内。 指导 环境 Python 3.7 NumPy 1.17.2 Tensorflow 2.0.1 用法 所有代码都位于目录/model ,每种模型都有对应的目录,其中放置了模型和应用程序。 例如,FastText的模型和应用程序位于/model/FastText ,模型部分为fast_text.py ,应用程序部分为main.py 模型 1个FastText FastText是在“提出的。 1.1论文描述 使用查找表,将ngram包转换为单词表示形式。 将单词表示形式平均为一个文本表示形式,它是一个隐藏变量。 文本表示又被馈送到线性分类器。 使用softmax函数可计算预定义类上的概率分布。 1.2在这里实现 FastText的网络结构: 2个TextCNN 在提出了TextCNN
2021-11-09 18:35:46 1.21MB nlp text-classification keras fasttext
1
mynlp:一个生产级,高性能,预定,可扩展的中文NLP工具包。(中文分词,平均感知机,fastText,拼音,新词发现,分词纠错,BM25,人名识别,命名实体,自定义词典)
2021-10-26 17:08:50 1.16MB nlp segment pinyin fasttext
1
fasttext图书分类
2021-08-29 09:10:52 131.1MB NLP、分类
1
fasttext训练集,用户fasttext文本分类训练集。。。。
2021-08-24 18:05:33 97.81MB fasttext
1
该代码文件包括以下几个部分: (1)nlp_utils.py 数据功能处理函数 (2)fast_text_train.py 训练代码 (3)fast_text_predict.py 利用meta模型预测代码 (4)frozen_graph.py 模型固化及预测代码 (5)saves 训练得到的模型文件 (6)word2id_dict.txt、label2id_dict.txt 训练时得到的字典文件
2021-07-18 14:41:48 82.69MB fasttext tensorflow 模型训练 模型固化
1
1) fastText 2) TextCNN 3) TextRNN 4) RCNN 5) Hierarchical Attention Network 6) seq2seq with attention 7) Transformer("Attend Is All You Need") 8) Dynamic Memory Network 9) EntityNetwork:tracking state of the world 10) Ensemble models 11) Boosting: 包含这些模型的分类算法
2021-07-10 21:06:58 13.67MB 文本分类 python 计算机视觉 fastText
1
fastText4j:使用Java实现Facebook的FastText
2021-06-10 19:32:49 4KB kotlin java word2vec fasttext
1