用户画像的分析,帮助业务人员设计标签类目体系。为用户打“标签”,而一个标签通常是人为规定的高度精炼的特征标识,如年龄、性别、地域、用户偏好等
2021-12-23 17:49:39 2.81MB 用户画像 用户标签 标签体系
1
首先我们来提取排名前十的热点话题。 因为话题并不等同于关键词,而更像是一些关键词的组合,所以像上面那样直接 提取关键词作为话题似乎并不科学。所以我们这里用LDA(隐含狄利克雷分布) 来进行文本主题抽取。 LDA 在主题模型中占有非常重要的地位,常用来文本分类。LDA由Blei, David M.、Ng, Andrew Y.、Jordan于2003年提出,用来推测文档的主题分布。它可以 将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取 出它们的主题分布后,便可以根据主题分布进行主题聚类或文本分类。 机器学习的模型分为两种,一种是基于策略,即不能给出明确的数据分布的,一 种是基于模型,可以给出分布的形式,但是超参数不知道。kmeans,dbscan是 基于性能和密度的,基于策略寻找最优聚类方案,而PLSA和LDA是基于多项式 分布和狄利克雷分布的,基于参数迭代寻找最优聚类方案的。 来总结一下热点话题形成的特点和关键因素。 首先当然是微博大V发布和转发的消息会更容易成为热点话题,而从大V的用户 画像中可以看出来自北京、上海、广东等发达地区的大V数量更多,他们引起的 热点话题也就多。 其次是一条微博的转发量。转发量越多,自然话题变成热点话题的概率也就更 大。 还有就是各种重大节日和事件的发生。比如像是情人节,恋爱、感情就会变成热 点话题,而如果是奥运会开幕这种事件,运动员就会变成热点话题。热点话题是 随着时间和事件的发生决定的。 而关于工作、生活、学习之类的事情,其实一直都是热点话题,一直被人们所讨 论。 同时,男性和女性各自的热点话题也会有所差异。 以上就是我的微博大V数据分析报告。详细代码见ipynb文档。
2021-12-22 17:08:58 2.13MB python
框架搭建环境 - 编译器:IDEA 2019.1 - Maven:3.6.0 - JDK:1.8.0_191 - 系统:Win 10 数据库 MySQL - 版本:mysql-installer-community-8.0.15.0.msi - 账户名:root - 密码:jianghongyu - 端口:3306 - 数据库名:jhy_portrait - 数据库表结构:见flink-user-portrait-main项目根目录/dbfile/mysql/ MongoDB - 版本:mongodb-linux-x86_64-4.0.9 - 可视化工具Robomongo:robo3t-1.3.1 Windows版 大数据组件 - Hadoop:hadoop-2.8.5.tar.gz - HBase:hbase-1.4.9.tar.gz - ZK:zookeeper-3.4.14.tar.
2021-12-19 19:56:10 6.07MB Java
1
智能画像专家软件 一个很神奇的人的画像软件 简单方便
2021-12-18 13:05:46 12.26MB 公安部 软件 画像
1
2020H1中国老年人群画像及消费模式调查分析报告 精简版.pdf
2021-12-18 11:51:40 7.69MB 行业 报告 文档
从技术、产品、运营3个维度详尽阐述从0到1搭 建用户画像系统的技术栈和方法论
2021-12-15 20:07:05 43.5MB 画像 方法论 方案
1
import cn.doitedu.commons.util.SparkUtil import org.apache.spark.ml.linalg import org.apache.spark.ml.linalg.{Vector, Vectors} import org.apache.spark.sql.{DataFrame, Dataset, SparkSession} object KnnDemo { def main(args: Array[String]): Unit = { val spark: SparkSession = SparkUtil.getSparkSes
2021-12-10 16:53:32 31KB dataframe knn label
1
基于Python和Echarts职位画像系统,用Scrapy抓取招聘数据,使用Django+echarts完成数据可视化
2021-12-09 18:03:38 32.26MB python 爬虫
给大家分享一套课程——基于Flink+Alink构建全端亿级实时用户画像系统课程,本课程采用全新的大数据技术栈:Flink+Alink,让你体验到全新技术栈的强大,感受时代变化的气息,通过学习完本课程可以节省你摸索的时间,节省企业成本,提高企业开发效率。
2021-12-03 20:05:48 689B Flink Alink 大数据 用户画像
1
dmp大数据平台设计方案
2021-11-30 04:55:43 1.56MB dmp 用户画像 大数据方案 spark
1