word2vec java版源码LF-LDA 和 LF-DMM 潜在特征主题模型 LF-LDA 和 LF-DMM 潜在特征主题模型的实现,如我的 TACL 论文中所述: Dat Quoc Nguyen、Richard Billingsley、Lan Du 和 Mark Johnson。 . 计算语言学协会汇刊,卷。 3,第 299-313 页,2015 年。 LDA 和 DMM 主题模型的实现可在 用法 本节使用预编译的LFTM.jar文件描述命令行或终端中实现的用法。 在这里,预计 Java 1.7+ 已经设置为在命令行或终端中运行(例如:在 Windows 操作系统中将 Java 添加到path环境变量中)。 预编译的LFTM.jar文件和源代码分别位于jar和src文件夹中。 用户可以通过简单地运行ant重新编译源代码(也期望已经安装了ant )。 此外,用户可以在test文件夹中找到输入示例。 输入主题建模语料库的文件格式 与test文件夹中的corpus.txt文件类似,输入的主题建模语料库中的每一行代表一个文档。 这里,文档是由空格字符分隔的序列词/标记。 用户在训练主题模
2023-04-18 11:55:20 7.25MB 系统开源
1
以微博为代表的社交平台是信息时代人们必不可少的交流工具.挖掘微博文本数据中的信息对自动问答、舆情分析等应用研究都具有重要意义.短文本数据的分类研究是短文本数据挖掘的基础.基于神经网络的Word2vec模型能很好的解决传统的文本分类方法无法解决的高维稀疏和语义鸿沟的问题.本文首先基于Word2vec模型得到词向量,然后将类别因素引入传统权重计算方法TF-IDF (Term Frequency-Inverse Document Frequency)设计词向量权重,进而用加权求和的方法得到短文本向量,最后用SVM分类器对短文本做分类训练并且通过微博数据实验验证了该方法的有效性.
2023-03-16 16:35:47 977KB Word2Vec 短文本分类 TF-IDF
1
认为因短文本具有特征稀疏性和高度冗余性,微博短文本的预处理及学习方法研究已经成为微博信息挖掘及应用的关键,并在许多方面有着非常重要和广泛的应用。重点分析微博短文本的特性,并对微博短文本的预处理和学习方法及其应用现状进行归纳和总结,包括短文本特征表示、短文本特征拓展与选择、短文本分类与聚类学习、热点事件发现及自动文摘等。最后指出相关研究的局限性,并对未来的发展方向进行展望。
1
Pytorch-文本匹配 这是用于文本匹配的代码,所有Deep模型都在pytorch平台上运行 这是一个关于对的竞赛 环境 python 3.6或python 3.5 pytorch 0.4.0 for cpu或gpu(此代码主要在cpu上运行) tqdm scikit学习 代码组织 data用于保存训练,测试,词嵌入矢量或临时文件model用于保存各种Deep模型stacking用于将预测结果保存在各种模型的验证集中data_propresse用于预处理数据submit用于保存提交文件 数据预处理 在目录data_propresse运行文件runme.py 火车 运行文件train.py 合奏 运行文件ensemble2.py
2022-12-28 20:21:21 28KB Python
1
CDial GPT 本项目提供了一个大规模中文对话数据集,并提供了在此数据集上的中文对话预训练模型(中文GPT模型),更多信息可参考我们的。 本项目代码修改自 ,使用了HuggingFace Pytorch版的库,可用于预训练与微调。 目录 消息 2021-02-28:一个,欢迎大家提bug和加速优化算法,以及新的清洗功能等等。 2021-01-09:实验室出版新书 ,欢迎大家阅读购买。 2020-11-20:预训练模型新工作 。本工作将词级的语言学知识(包括词性和词的情感极性)。表示模型SentiLARE,欢迎大家使用。 2020-10-18:我们的论文《大规模中文短文本对话数据集》获得了NLPCC2020最佳学生论文奖。 :party_popper: :party_popper: :party_popper: 2020-09-08:感谢所提供的。 2020-09-02:可用加载,感谢苏剑林提供代码。 我们所提供的数据集LCCC(大规模汉语清洁会话
2022-11-30 10:21:23 715KB dialogue text-generation pytorch gpt
1
22w条打好标签的数据,供短文本主题分类使用
2022-11-07 10:06:36 13.14MB nlp7294 短文本主题分析数据集
1
AI人工智能技术分享 知识图谱技术及应用介绍-理解短文本 共211页.pdf
2022-07-09 16:09:28 10.03MB AI 人工智能 知识图谱 短文本
短文本聚类在数据挖掘中发挥着重要的作用,传统的短文本聚类模型存在维度高、数据稀疏和缺乏语义信息等问题,针对互联网短文本特征稀疏、语义存在奇异性和动态性而导致的短文本聚类性能较差的问题,提出了一种基于特征词向量的文本表示和基于特征词移动距离的短文本聚类算法。首先使用Skip-gram模型(Continuous Skip-gram Model)在大规模语料中训练得到表示特征词语义的词向量;然后利用欧式距离计算特征词相似度,引入EMD(Earth Mover's Distance)来计算短文本间的相似度;最后将其应用到Kmeans聚类算法中实现短文本聚类。在3个数据集上进行的评测结果表明,效果优于传统的聚类算法。
2022-06-23 11:19:25 1.18MB 短文本; EMD距离; 词向量; 相似度计算;
1
杂货店 基于LibLinear的简单高效的短文本分类工具 嵌入作为默认标记器,以支持中文标记化 其他语言: 表现 火车组合:48个带有32个标签的新闻标题 测试集:带有32个标签的16k新闻标题 与svm和朴素贝叶斯进行比较 分类器 准确性 时间成本 scikit学习(nb) 76.8% 134 scikit学习(svm) 76.9% 121 杂货店 79.6% 49 样例代码 >> > from tgrocery import Grocery # Create a grocery(don't forget to set a name) >> > grocery = Grocery ( 'sample' ) # Train from list >> > train_src = [ ( 'education' , 'Student debt to cost Brit
2022-06-22 23:35:22 71KB C++
1
nlp 短文本情感分析 微博语料库 带标记
2022-05-16 19:09:11 345KB 自然语言处理 文档资料 人工智能 nlp
1