本代码使用python对豆瓣电影信息进行爬取,将数据转存到数据库,并对爬取的数据进行分析及可视化。
2021-07-20 11:11:00 1.34MB 豆瓣电影 python 爬虫 数据分析
基于Python + Flask + PyEcharts + Bootstrap实现淄博酒店数据分析可视化平台 本项目名为“淄博酒店统计与分析”,主要是利用网络爬虫爬取美团网站的酒店数据,利用Echarts工具进行统计分析,筛选出用户期望的酒店数据,对酒店的选择进行策略支持。 不仅仅是淄博这一个城市,可以修改成任何一个城市,修改成任何一个城市的任何行业的可视化分析,只需要修改爬虫代码即可。 并且,本项目有明确的的前后端,有数据的爬取,数据的处理和代入数据库,FLASKweb展示到页面,分页等很多的功能。 通过模板(一些其他资源)进行修改的,非常的实用,功能齐全等多个好处
2021-07-13 12:18:02 20.05MB 大数据 可视化分析 flask mysql
元框 代谢组学数据分析,解释和综合探索的工具箱 版本:1.2(2016年12月1日) 描述 基于R的Web应用程序,用于数据处理,统计分析,集成可视化探索和具有多种方法的功能分析(例如功能类评分,过多表示分析和WordCloud生成)。 安装和运行metabox 需要 需要 使用以下命令安装metabox #Install devtools R package, if not exist install.packages('devtools', repos="http://cran.rstudio.com/") library(devtools) #Install dependent packages source('https://bioconductor.org/biocLite.R') biocLite(c('impute','preprocessCore','GO.db','
2021-07-04 22:57:34 10.45MB JavaScript
1
纽约市-Airbnb-数据产品 纽约市Airbnb数据的数据分析,可视化和预测 描述 该项目分析了2019年从纽约市地区收集的Airbnb数据,该数据的列表范围从私人住宅到房间,邻里,邻里群体,价格等。该项目的目标是创建一个可以预测的模型未来的AirBnb价格以及城市中哪些街区最有利可图。 数据源 该公开数据集是Airbnb的一部分,其原始资源可在此上。 它包含定性和定量数据的混合,有48,895个条目和16列。 我们的模型将包括34,218个培训条目和14,666个测试目标标签PRICE的条目。 结果 模型 RSME平均值 RSME平均10倍 线性回归 0.495 0.498 随机森林回归 0.493 0.509 XgBoost 0.473 N 套索回归 0.693 0.698 模型 准确性 随机森林分类器 83.4% 逻辑回归 84.5% (整体最佳) 决策树 8
2021-06-29 10:48:00 2.51MB python data-science numpy pandas
1
:man::laptop: 工作汇总 基于数据技术的互联网行业招聘信息聚合系统本系统以Python为核心,依托网络展示,所有功能在网页就可以完成操作,爬虫,分析,可视化,互动独立成模块,互通有无。具体依托python的丰富库实现,爬虫使用请求爬取,使用lxml,beautifulsoup4解析。使用numpy,pandas分析数据,使用pyecharts做可视化,使用Flask进行web后台建设。数据通过csv,MySQL,配置文件来进行存储互通。为了扩展功能编写了计时器,微信推送,为了适应团队合作编写了函数注册器,参数转换器。爬虫数据来自前程无忧,齐鲁人才网,猎聘网,拉勾网等等网站,需要的基本数据一应俱全。 觉得不错欢迎给star :star:哦 部分网站爬虫可能已无法使用注意使用时的爬虫选项 在线演示 去做 缺失爬虫补充 改善爬取时UI 截图 环境 Windows \ Linux(未测试) Python 3.6:
2021-06-24 12:54:34 8.59MB 系统开源
1
### 安居客出租房(武汉为例)爬虫+数据分析+可视化 这个爬虫是我前段时间在淘宝上做单子的时候遇见的一个客户需求。本来以为就是一个简单的爬虫项目。但后面客户加了数据清洗和数据分析的要求。而后又加了要详细代码解释的需求等等。直到最后客户坦白说这是他们大专的毕设.......但是这个单子坐下来只有200左右,我想了一下,感觉好亏啊。在淘宝上随便找一个做毕设的都要好多钱的,而且客户本身的代码能力、数学、逻辑能力都很差,导致我每行都给注释以及看不懂,在我交付代码后又纠缠了我一个多礼拜。反正总体做下来的感觉就是烦躁。头一次感觉到了客户需求变更带来的巨大麻烦。 总之这是一次不是很愉快的爬虫经历。但是作为我写爬虫以来注释最详细的一次,以及第一次真正使用像matplotlib这种数据分析库的代码,我认为还是有必要分享出来给大家当个参考的(PS:大佬轻拍~)。爬虫本身几乎没有什么难度,写的也比较乱,敬请见谅。 **功能** 爬取安居客上的出租房信息(武汉地区的),并通过爬取的数据进行数据清洗以及数据分析。给出四个不同层面的可视化图。最终结果如下图所示: ![Image text](https://raw.githubusercontent.com/srx-2000/git_spider/master/anjuke_room_rent_info/result/1.png) ![Image text](https://raw.githubusercontent.com/srx-2000/git_spider/master/anjuke_room_rent_info/result/2.png) ![Image text](https://raw.githubusercontent.com/srx-2000/git_spider/master/anjuke_room_rent_info/result/3.png) ![Image text](https://raw.githubusercontent.com/srx-2000/git_spider/master/anjuke_room_rent_info/result/4.png) **环境** 1. Windows 10 2. python3.7 **使用方法** 首先声明该爬虫由于是特定情况下写的,所以本身的通用性特别差,仅可以对安居客网站上的武汉的出租房信息进行爬取,且需要自己手动更新cookie。同时在对数据进行分析及可视化的时候由于也是特别针对武汉出租房的进行的,所以针对性也比较强。如果别的需求需要自己进行更改。 1. 访问[安居客网址](https://wuhan.anjuke.com/),获取cookie。 > tip:获取cookie的方法可根据[此链接](https://jingyan.baidu.com/article/5d368d1ea6c6e33f60c057ef.html) 2. 在项目中找到`spider.py`的文件,将第12行的cookie换成你自己的cookie。 3. 运行`spider.py`,获取房源信息。运行后应会产生一个`武汉出租房源情况.csv`的文件。此文件为我们从安居客上爬取的房源信息,其中包含`房屋租住链接、房屋描述、房屋地址、房屋详情(户型)以及经纪人、房屋价格`五个属性。 4. 在获取了数据之后我们运行`matplotlib.py`文件。进行数据清洗,分析,可视化。运行后即可获得**功能**中展示四个图片。 **技术栈** 1. request 2. parsel 3. pandas 4. matplotlib **进步(相比之前)** 此次爬虫相比之前的技术上可以说有减无增。但其中注释相当详细,可谓是每行代码都有注释。所以对于初学者应该有一些用处。同时使用matplotlib进行了数据分析可视化等。对于数据处理的代码的注释也是几乎每行都有注释的。
2021-06-22 15:04:21 3.3MB 爬虫 数据分析 可视化
数据来源于豆瓣、艺恩网站电影数据。其数据有数据分析的意义与价值。
2021-05-25 12:02:47 2.27MB 数据分析 可视化
1
清华大学出品的R语言全套课程PPT学习课件,非常适合大学生和职场人士学习,也适合老鸟复习回顾,完全可用于自学入门,很经典好用的PPT课件哦~ (1)清华大学精品数据科学R语言全套课程PPT课件含习题(26页) 第1章 R语言绪论(1) (2)清华大学精品数据科学R语言全套课程PPT课件含习题(27页) 第2章 R语言入门 (3)清华大学精品数据科学R语言全套课程PPT课件含习题(53页) 第3章 数据模型 (4)清华大学精品数据科学R语言全套课程PPT课件含习题(15页) 第4章 数据准备 (5)清华大学精品数据科学R语言全套课程PPT课件含习题(66页) 第5章 数据可视化 (6)清华大学精品数据科学R语言全套课程PPT课件含习题(35页) 第6章 数据探索 (7)清华大学精品数据科学R语言全套课程PPT课件含习题(38页) 第7章 数据变换 (8)清华大学精品数据科学R语言全套课程PPT课件含习题(20页) 第8章 高级编程 (9)清华大学精品数据科学R语言全套课程PPT课件含习题(63页) 第9章 数据建模 (10)清华大学精品数据科学R语言全套课程PPT课件含习题(25页) 第10章 数据评估 (11)清华大学精品数据科学R语言全套课程PPT课件含习题(21页) 第11章 影响大学平均录取分数线因素分析 (12)清华大学精品数据科学R语言全套课程PPT课件含习题(18页) 第12章 收视率分析 (13)清华大学精品数据科学R语言全套课程PPT课件含习题(18页) 第13章 RHadoop (14)清华大学精品数据科学R语言全套课程PPT课件含习题(25页) 第14章 Rspark
2021-05-24 09:05:39 2.61MB 数据科学 R语言 数据分析 可视化
清华大学出品的R语言全套课程PPT学习课件,非常适合大学生和职场人士学习,也适合老鸟复习回顾,完全可用于自学入门,很经典好用的PPT课件哦~ (1)清华大学精品数据科学R语言全套课程PPT课件含习题(26页) 第1章 R语言绪论(1) (2)清华大学精品数据科学R语言全套课程PPT课件含习题(27页) 第2章 R语言入门 (3)清华大学精品数据科学R语言全套课程PPT课件含习题(53页) 第3章 数据模型 (4)清华大学精品数据科学R语言全套课程PPT课件含习题(15页) 第4章 数据准备 (5)清华大学精品数据科学R语言全套课程PPT课件含习题(66页) 第5章 数据可视化 (6)清华大学精品数据科学R语言全套课程PPT课件含习题(35页) 第6章 数据探索 (7)清华大学精品数据科学R语言全套课程PPT课件含习题(38页) 第7章 数据变换 (8)清华大学精品数据科学R语言全套课程PPT课件含习题(20页) 第8章 高级编程 (9)清华大学精品数据科学R语言全套课程PPT课件含习题(63页) 第9章 数据建模 (10)清华大学精品数据科学R语言全套课程PPT课件含习题(25页) 第10章 数据评估 (11)清华大学精品数据科学R语言全套课程PPT课件含习题(21页) 第11章 影响大学平均录取分数线因素分析 (12)清华大学精品数据科学R语言全套课程PPT课件含习题(18页) 第12章 收视率分析 (13)清华大学精品数据科学R语言全套课程PPT课件含习题(18页) 第13章 RHadoop (14)清华大学精品数据科学R语言全套课程PPT课件含习题(25页) 第14章 Rspark
2021-05-24 09:05:39 2.8MB 数据科学 R语言 数据分析 可视化
清华大学出品的R语言全套课程PPT学习课件,非常适合大学生和职场人士学习,也适合老鸟复习回顾,完全可用于自学入门,很经典好用的PPT课件哦~ (1)清华大学精品数据科学R语言全套课程PPT课件含习题(26页) 第1章 R语言绪论(1) (2)清华大学精品数据科学R语言全套课程PPT课件含习题(27页) 第2章 R语言入门 (3)清华大学精品数据科学R语言全套课程PPT课件含习题(53页) 第3章 数据模型 (4)清华大学精品数据科学R语言全套课程PPT课件含习题(15页) 第4章 数据准备 (5)清华大学精品数据科学R语言全套课程PPT课件含习题(66页) 第5章 数据可视化 (6)清华大学精品数据科学R语言全套课程PPT课件含习题(35页) 第6章 数据探索 (7)清华大学精品数据科学R语言全套课程PPT课件含习题(38页) 第7章 数据变换 (8)清华大学精品数据科学R语言全套课程PPT课件含习题(20页) 第8章 高级编程 (9)清华大学精品数据科学R语言全套课程PPT课件含习题(63页) 第9章 数据建模 (10)清华大学精品数据科学R语言全套课程PPT课件含习题(25页) 第10章 数据评估 (11)清华大学精品数据科学R语言全套课程PPT课件含习题(21页) 第11章 影响大学平均录取分数线因素分析 (12)清华大学精品数据科学R语言全套课程PPT课件含习题(18页) 第12章 收视率分析 (13)清华大学精品数据科学R语言全套课程PPT课件含习题(18页) 第13章 RHadoop (14)清华大学精品数据科学R语言全套课程PPT课件含习题(25页) 第14章 Rspark
2021-05-24 09:05:39 2.69MB 数据科学 R语言 数据分析 可视化