使用Python进行数据分析:具有NYC开放数据的初学者指南 马克·鲍尔 目录 1.简介 使用Python进行数据分析:具有NYC开放数据功能的初学者指南是一个分为四个部分的系列,如以下各节所述。 该库具有笔记本电脑,这些笔记本电脑将使用和集。 本系列举例说明如何将数据分析用于发现有用信息和支持决策。 内容包括: 第1部分:。 第2部分: 。 第3部分: 。 第4部分: 。 2.笔记本 文档名称 描述 静态网页 读取和写入文件。 数据检查,清洁和整理。 绘图和数据可视化。 地理空间数据和制图。 3.资料 数据集 描述 建筑物的足迹轮廓Shapefile在纽约城。 MapPLUTO将PLUTO税收批次数据与财政部数字税收地图(DTM)的税收批次功能合并,可作为海岸线修剪和水源使用。 它以ESRI shapefile和File Geodatabase格式包含税收批次级别的大
2021-02-27 09:07:12 96.5MB python nyc numpy pandas-dataframe
1
现有某地区出租车 GPS 定位数据 taxi.csv 数据一共分为 4 列,每一列含义如下表所示: 编号(id) 纬度(lat) 经度(lon) 时间戳(time) 根据上述条件,结合课堂上学习的“DataFrame的常用操作”相关知识,编写代码实现如下要求: 1、查询编号为 5 的出租车的 GPS 数据的前 10 行。 2、统计出租车的总数有多少。 分别统计每辆出租车的 GPS 点记录有多少条。
2020-01-03 11:31:23 7.12MB spark dataframe python
1
本例代码使用了Python的PyQt5、matplotlib和Dataframe画图,并在图中添加了一条随鼠标移动的虚线,之后经过计算在画图的线上标注出了鼠标在当时x轴停留时的数据,本例只是一个简单的例子,自己可以根据功能修改
2019-12-21 21:38:18 2KB Ptthon Pyqt5 matplotlib pandas
1
(1)创建RDD (2)将RDD转为DataFrame (3)调用registerTempTable,注册为表,表名为:tb_book (4)使用使用sql语句查询前15条 (5)模糊查询书名包含“微积分”的书 (6)输出图书的前10行的name和price字段信息 (7)统计书名包含“微积分”的书的数量 (8)查询评分大于9的图书,,且只展示前10条 (9)计算所有书名包含“微积分”的评分平均值 (10)把书目按照评分从高到低进行排列,且只展示前15条 (11)把图书按照出版社进行分组,统计出不同出版社图书的总数 (12)将书名包含“微积分”的书记录保存到本地或HDFS上,且保存的格式为csv,文件名为:学号.csv (13)然后再从该csv文件加载,创建DataFrame,并查询和显示
2019-12-21 20:45:17 1.54MB DataFrame spark sql python
1