GSDMM:短文本聚类 该项目为的Dirichlet混合模型实现了Gibbs采样算法,用于短文本文档的聚类。 该算法的一些优点: 它只需要集群数的上限K 通过良好的参数选择,模型可以快速收敛 空间高效且可扩展 该项目是GSDMM的易于阅读的参考实现,除非有需求,否则我不打算维护它。 不过,我积极维护更快锈版本GSDMM的。 电影组过程 在他们的论文中,作者介绍了一个简单的概念模型来解释GSDMM,称为电影组过程。 想象一下一位教授正在领导一个电影课。 在课程开始时,将学生随机分配到K表。 在上课之前,学生会列出自己喜欢的电影。 教授反复朗读班级角色。 每次调用学生姓名时,学生必须选择一个
2021-12-11 20:25:49 8KB python nlp clustering short-text
1
PDF格式。微博短文本情感分析的目的是发现用户对热点事件的观点及态度。已有的方法大多是基于词袋模型,然而,词袋模型 无法准确捕获带有情感倾向性的语言表现特征。结合卷积神经网络( CNN) 和长短期记忆网络( LSTM) 模型的特点,提出了卷 积记忆神经网络模型( CMNN) ,并基于此模型来解决情感分析问题。与传统算法相比,模型避免了具体任务的特征工程设计; 与 CNN 和LSTM 相比,模型既能够有效提取短文本局部最优特征,又能够解决远距离的上下文依赖。通过在COAE2014 数据集 上的实验来验证了模型对微博短文本情感分析的有效性。并与 CNN、LSTM 以及传统模型 SVM 做了实验对比,结果表明,模型 对于微博短文本情感分析在性能上优于其他3 种模型。
2021-12-06 21:56:35 318KB CNN 短文本分析 情感分析
1
BTM:短文本主题建模
2021-12-01 15:22:00 640KB 研究论文
1
BTM:短文本主题建模
2021-11-28 10:35:36 1.28MB 研究论文
1
在ATIS数据集中,训练集共有4978条句子,测试集共有893条,标注有对应槽位,word2id,以及槽位id。完全是纯净数据集。
1
以知识为动力的深度短文本分类 为了衡量知识的重要性,采用知识驱动的注意力的短文本分类法(STCKA)引入了注意机制,利用对短文本的概念(CST)的关注和对概念集的概念(C-CS)的关注来获取权重两个方面的概念。 它可以借助概念性信息对短文本进行分类。 可以在上找到纸张。 为了复制本文,我们实现了此代码。 要求 的Python == 3.7.4 pytorch == 1.3.1 torchtext == 0.3.1 麻木 tqdm 输入数据格式 片段和TagMyNews数据集可以在数据集文件夹中找到。 数据格式如下('\ t'表示TAB): origin text \t concepts ... 怎么跑 训练与开发与测试:原始数据集被随机分为80%用于训练和20%用于测试。 随机选择的训练实例的20%用于形成开发集。 python main.py --epoch 100 --lr
2021-11-15 16:58:51 6.16MB Python
1
2021-GAIIC-Task3-Share 全球人工智能技术创新大赛-赛道三:小布助手对话短文本语义匹配 周周星分享 非常荣幸能够拿到周周星,目前初赛第四,本着互联网开源精神,这里也做一些的分享,和大家相互学习,共同进步。 数据 1,对偶数据增强,即Q1-Q2对变成Q2-Q1对; 2,闭包数据增强,即Q1-Q2 = 1,Q2-Q3 = 1,则Q1-Q3 = 1;注意:数据增强时要保证正负样本比例,与原始分布一致,否则无效果甚至导致效果变差。 模型训练方式 半互动 1,ESIM,2,Bimpm,3,SentenceBert,注意:半交互是我们一开始的思路,并使用双路bert,上层使用bert前模型等;并且使用ESIM单模加上技巧,单模也可以上0.89,但是后面使用全交互,效果更好,就没有再继续实验了。 全互动 1,先MLM预训练,再微调; 2,MLM预训练与微调一起做,注意:第二种方式会比
2021-09-20 00:03:59 125KB
1
2021 GAIIC Task3 Preliminary Share 赛题 - 小布助手对话短文本语义匹配 十分荣幸能获得初赛最后一周的周星星,目前成绩第五,这里分享一些实验结果和心得给和我一样刚接触NLP比赛的同学们,同时也感谢比赛路上各位大佬开源的成果给我带来的帮助 模型架构 bert/nezha base 预训练+微调 数据增强 对偶 (q1 - q2 = 1 => q2 - q1 = 1) 闭包 (q1 - q2 = 1 & q2 - q3 = 1 => q1 - q3 = 1) 实验细节 闭包只造了正样本。如果正负样本都造效果会差2个千分点左右 数据增强只在预训练阶段,微调阶段使用原数据集 闭包造的正样本也对偶了 预训练 参考的是 transformers 官方的代码 vocab.txt 是徒手解析原数据按空格切开生成的,没做词频对齐 加载了 bert/nezha base 的预
2021-09-20 00:01:32 47KB
1
短文本、多标签、机器学习分类算法,包含代码,配置环境说明,使用说明。短文本、多标签、机器学习分类算法,包含代码,配置环境说明,使用说明。短文本、多标签、机器学习分类算法,包含代码,配置环境说明,使用说明。
2021-08-28 17:25:03 7.11MB 分类 短文本 文本 机器学习
1
基于闭频繁项集短文本聚类.pdf
2021-08-20 01:22:33 344KB 聚类 算法 数据结构 参考文献