豆瓣用户每天都在对“看过”的电影进行“很差”到“力荐”的评价,豆瓣根据每部影片看过的人数以及该影片所得的评价等综合数据,通过算法分析产生豆瓣电影 Top 250。 为了分析电影产业的发展趋势,本次实验需要对这些信息做统计分析。 注意:豆瓣网站的数据形式为文本文件(必须将导入到hive中做处理)。也可以为CSV文件,例如下图: 针对本次实验,我们需要用到Hadoop集群作为模拟大数据的分析软件,集群环境必须要包括,hdfs,hbase,hive,flume,sqoop等插件,最后结合分析出来的数据进行可视化展示,需要用到Python(爬取数据集,可视化展示)或者echarts等可视化工具。
Hadoop豆瓣电影数据分析(Hadoop)操作源码
2022-06-17 09:10:52 7KB Hadoop
本实验报告为厦门大学计算机科学系 林子雨 博士/助理教授《大数据处理技术Spark》课程在学期结束后的“大作业”。Spark课程实验案例:淘宝双11数据分析与预测课程案例,由厦门大学数据库实验室团队开发,旨在满足全国高校大数据教学对实验案例的迫切需求。本案例涉及数据预处理、存储、查询和可视化分析等数据处理全流程所涉及的各种典型操作,涵盖Linux、MySQL、Hadoop、Hive、Sqoop、Eclipse、ECharts、Spark等系统和软件的安装和使用方法。本报告含实验环境、实验内容、实验内容截图、遇到的问题及解决方案、心得体会。
2022-06-17 09:10:49 4.82MB 大数据 Spark Linux MySQL
进入智联招聘官网,在搜索界面输入‘数据分析师’,界面跳转,按F12查看网页源码,点击network  选中XHR,然后刷新网页 可以看到一些Ajax请求, 找到画红线的XHR文件,点击可以看到网页的一些信息 在Header中有Request URL,我们需要通过找寻Request URL的特点来构造这个请求网址, 点击Preview,可以看到我们所需要的信息就存在result中,这信息基本是json格式,有些是列表; 下面我们通过Python爬虫来爬取上面的信息; 代码如下: import requests from urllib.parse import urlencode im
2022-06-17 08:30:40 197KB python 分析师 岗位
1
《spss18数据分析基础与实践》随书数据,帮助大家进行spss的学习。
2022-06-16 22:29:07 1.45MB sav数据
1
用-Hadoop-进行分布式数据处理
2022-06-16 18:07:45 903KB hadoop 分布式 数据处理 数据分析
1
python 数据分析 pandas
2022-06-16 10:15:30 7.27MB python 数据分析 pandas
1
通过Python 的 Request 库进行网络爬取,这样可以使得实验的数据为最新且实时动态更新,更有利于进行疫情数据的分析。通过爬取到的数据,利用 Pyecharts 库进行可视化数据分析,将繁琐的数据转换为于理解的图表形式,并发布在前端网页上,将details表里的各市累计确诊数据,以省分组进行累加,将结果返回给前端。根据各省疫情确诊的人数划分为6个等级,确诊人数由少到多,颜色随严重程度的加深而加深。在左下角进行颜色的说明。方便用户浏览和观察。
2022-06-15 19:06:44 217KB python 疫情可视化 数据分析课程设计
01.数据分析的基本概念.mp4 02.数据可视化.mp4 03.数据分析的常用模型.mp4 04.数据分析的常用工具.mp4 05.互联网金融简介和特点.mp4 06.互联网金融的主要模式.mp4 07.常见的个人信贷产品.mp4 等资源
2022-06-14 23:51:34 130B 数据分析 数据可视化
1
Kaggle Suicide Rates Overview 1985 to 2016数据集 Compares socio-economic info with suicide rates by year and country 帮助没有办法注册kaggle的同学 注册kaggle验证码接收不到的问题指路:https://blog.csdn.net/weixin_60874964/article/details/125261398?spm=1001.2014.3001.5502 如果还是没成功,需要什么数据集私我就可以了
2022-06-14 23:23:59 397KB kaggle SuicideRates 数据集 大数据分析
1