上传者: 38132105
|
上传时间: 2021-08-22 16:51:15
|
文件大小: 337KB
|
文件类型: RAR
【知识准备】
探索性数据分析的基本原理和方法;Python语言及相关包的运用;Pandas;Numpy;Matplotlib;Seaborn;Scikit-Leart。
【实训要求】
1、观察样本数据的结构和数据特征;
2、读取样本数据,观察样本数据结构和头尾各10行数据;
3、对样本数据进行分析,找出业务数据中的分布规律;
4、用可视化方法对分析结果进行展示。
5、观察并找出每个特征的样本数据的缺失值和异常值等并提出解决办法;
6、对样本数据进行预处理;
7、采集样本数据存入HBase数据库(选)。
【实训内容】
任务2-1
1、数据源:“sodadata”文件夹下“联通数据_Sample”。
2、项目数据集:
表一结果_Sample_1000条.csv
表二结果_Sample_1000条.csv
3、针对表一样本数据:
(1)分析并展示不同时间段采样的基站服务区内移动用户的活跃度分布;
(2)分析并展示服务区内移动用户工作时间和休息时间的活跃度分布,筛选出当地居民和外来移动用户;
(3)分析用户活动规律,根据其通信特点进行分类。(选做)
4、针对表二样本数据:
(1)分析并展示样本数据中年龄、性别、终端品牌等各类数据的分布规律;
(2)分析缺失和异常数据,提出处理预处理方案;
(3)筛选高价值重点用户(提示:从业务量或消费等方面思考);
(4)如果表一和表二从相同的服务区采集,请思考并提出你的进一步分析方案和商业营销方案。(选做)
5、用Jupyter Notebook根据实训要求编写程序和文档,最终结果打印输出为PDF文档;