上传者: 42101237
|
上传时间: 2021-11-07 14:42:20
|
文件大小: 19KB
|
文件类型: -
基于LDA模型的用户画像构建
运行配置
请同时配置python2 与 python3
简介
"主题模型"是对文本中隐含主题的一种建模方法。
每个主题其实是词表上单词的概率分布。
常见的主题模型有3种:
PLSA
LDA
L-LDA
LDA 包含“词 - 主题 - 文档” 三层结构。
基于LDA的用户画像核心是对于文本提取用户特征,并输出用户特征所对应的关键词。
在本文的实际问题中,“文档”对应“用户的文本信息”,“用户特征”对应为“主题”,“词”代表“用户所对应的标签”。
LDA模型详细介绍请参考
运行步骤
cookies获取
打开chrome开发者工具,选择Network,勾选Preserve log
登陆weibo.cn,可找到名字为weibo.cn的文件,复制其中cookies即可
单用户分析
分析一个用户的用户特征
请配置 conf.cookies 为可用cookies
请配置 c