ETM:嵌入空间中的主题建模

上传者: 42127748 | 上传时间: 2024-07-01 20:55:32 | 文件大小: 3.42MB | 文件类型: ZIP
电子取款机 这是Adji B. Dieng,Francisco JR Ruiz和David M. Blei题为“嵌入空间中的主题建模”的论文的代码。 (Arxiv链接: ://arxiv.org/abs/1907.04907) ETM在相同的嵌入空间中定义单词和主题。 ETM下的单词可能性是分类的,其自然参数由单词嵌入与其指定主题的嵌入之间的点积给出。 ETM是一个文档模型,可学习可解释的主题和单词嵌入,并且对于包含稀有单词和停用词的大量词汇表具有较强的鲁棒性。 依存关系 python 3.6.7 pytorch 1.1.0 数据集 所有数据集均经过预处理,可以在以下位置找到: (其中包含停用词,用于展示ETM停用词的鲁棒性。) 可以在文件夹“ scripts”中找到所有用于预处理给定ETM数据集的脚本。 20NewsGroup的脚本是独立的,因为它使用scikit-learn

文件下载

资源详情

[{"title":"( 21 个子文件 3.42MB ) ETM:嵌入空间中的主题建模","children":[{"title":"ETM-master","children":[{"title":"etm.py <span style='color:#111;'> 4.34KB </span>","children":null,"spread":false},{"title":"data.py <span style='color:#111;'> 2.35KB </span>","children":null,"spread":false},{"title":"scripts","children":[{"title":"data_20ng.py <span style='color:#111;'> 8.94KB </span>","children":null,"spread":false},{"title":"data_nyt.py <span style='color:#111;'> 8.15KB </span>","children":null,"spread":false},{"title":"stops.txt <span style='color:#111;'> 3.21KB </span>","children":null,"spread":false}],"spread":true},{"title":"utils.py <span style='color:#111;'> 2.88KB </span>","children":null,"spread":false},{"title":"main.py <span style='color:#111;'> 15.51KB </span>","children":null,"spread":false},{"title":"skipgram.py <span style='color:#111;'> 1.89KB </span>","children":null,"spread":false},{"title":"LICENSE <span style='color:#111;'> 1.08KB </span>","children":null,"spread":false},{"title":"README.md <span style='color:#111;'> 2.63KB </span>","children":null,"spread":false},{"title":"data","children":[{"title":"20ng","children":[{"title":"bow_ts_tokens.mat <span style='color:#111;'> 741.35KB </span>","children":null,"spread":false},{"title":"bow_ts_h2_tokens.mat <span style='color:#111;'> 458.83KB </span>","children":null,"spread":false},{"title":"bow_va_counts.mat <span style='color:#111;'> 3.17KB </span>","children":null,"spread":false},{"title":"bow_ts_h1_counts.mat <span style='color:#111;'> 106.73KB </span>","children":null,"spread":false},{"title":"bow_ts_h2_counts.mat <span style='color:#111;'> 104.24KB </span>","children":null,"spread":false},{"title":"vocab.pkl <span style='color:#111;'> 47.75KB </span>","children":null,"spread":false},{"title":"bow_tr_tokens.mat <span style='color:#111;'> 1.10MB </span>","children":null,"spread":false},{"title":"bow_va_tokens.mat <span style='color:#111;'> 10.24KB </span>","children":null,"spread":false},{"title":"bow_ts_counts.mat <span style='color:#111;'> 197.80KB </span>","children":null,"spread":false},{"title":"bow_tr_counts.mat <span style='color:#111;'> 302.34KB </span>","children":null,"spread":false},{"title":"bow_ts_h1_tokens.mat <span style='color:#111;'> 421.83KB </span>","children":null,"spread":false}],"spread":false}],"spread":true}],"spread":true}],"spread":true}]

评论信息

免责申明

【只为小站】的资源来自网友分享,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,【只为小站】 无法对用户传输的作品、信息、内容的权属或合法性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论 【只为小站】 经营者是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。
本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二条之规定,若资源存在侵权或相关问题请联系本站客服人员,zhiweidada#qq.com,请把#换成@,本站将给予最大的支持与配合,做到及时反馈和处理。关于更多版权及免责申明参见 版权及免责申明