通过10个文件从小功能一步步更新到网络爬虫、数据清洗 1.AQI计算 2.读取已经获取的JSON数据文件,并将AQI前5的数据输出到文件 3.CSV 4.根据输入文件判断是CSV还是JSON格式,并进行相应操作(with语句 os模块) 5、6、7、8.网络爬虫 requests模块 9.Pandas数据处理 数据分析 10.Pandas数据清洗 数据过滤
2021-12-25 23:15:42 7KB Python 网络爬虫 数据清洗
1
开源ETL工具kettle,共三个分包,请在主页中将三个分包下载至同一文件夹解压(资源上传最大不得超过1000M,无奈)
2021-12-24 16:03:27 314.81MB ETL 数据清洗
1
清洗后的数据:包括全国333地级市的十年气象数据,包括省份地区、年份、时间、天气状况、最高气温、最低气温 、风向(早)、风力(晚上)等,记录数据将近90W行,并附中国二级行政区域对照表 原始数据集:包含34个省级行政区所有二级行政区的数据按照城市为单位,比如陕西为例(西安、宝鸡、咸阳、铜川、渭南、延安、榆林、汉中、安康、商洛共十个地级市数据都有,每一个地级市有单独文件) 爬虫项目源码:源码为Python代码、使用idea运行,也可以使用VScode运行,采用requests-bs4模式爬取数据。Requests模块用于网页信息提取,get方法获取参数;BeautifulSoup用于网页解析,获取网页内容 分析结果PPT,分析过程采用Tableau软件,天气预测总结如下:总结结果是为了完成项目组任务。 1、全国温度最高的前十个省份的夏季温度持续保持在40℃以上,这正好贴切的反映出当前全球变暖的情况,为我们保护环境敲响了警钟。 2、内陆地区昼夜温差大于沿海地区,所以我们应该时刻关注天气情况,注意增减衣物。 3、风力最强的季节往往都是春季,这也是我国北方和西北地区沙尘暴频发的一个季节,在春季来临之前做好预防可以大幅度降低国家和人民的财产损失。 4、西安市最常出现的是多云和晴天,这也是西安气候干燥的原因,我们应该从日常做起,节约用水,使水资源可持续循环使用。
2021-12-17 11:04:07 74.03MB 天气数据集 python 分析结果 数据分析
摘要 为提高数据仓库数据质量,需要在ETL过程进行数据清洗。本文首先提出了ETL过程进行数据清洗应解决的问题,然后通过分析现有的ETL处理方式说明应采用数据库中的ETL处理,介绍了数据质量和数据清洗的原理并提出了数据清洗在ETL中的应用模型,最后通过实例说明数据清洗的具体实现。
2021-12-10 08:42:30 48KB 数据清洗
1
Python3爬虫、数据清洗与可视化配套资源代码和数据集 零一 韩要宾 黄园园 Python技术入门读物,通过实战教初学者
2021-12-09 14:37:10 210.57MB Python 爬虫 数据清洗 可视化
1
python 空气质量AQI 数据分析与预测----用到的库,数据集,数据清洗-附件资源
2021-12-08 19:32:20 23B
1
自己亲手全手打了一套系统的代码,帮助朋友完成设计,做了贵阳市几个区的房屋价格爬取以及数据清洗和可视化操作,代码细细道来: 原创文章 14获赞 142访问量 2万+ 关注 私信 展开阅读全文 作者:周小夏(cv调包侠)
2021-12-04 21:57:16 142KB 可视化 大数据 实战
1
最近,大数据工程师Kin Lim Lee在Medium上发表了一篇文章,介绍了8个用于数据清洗的Python代码。 数据清洗,是进行数据分析和使用数据训练模型的必经之路,也是最耗费数据科学家/程序员精力的地方。 这些用于数据清洗的代码有两个优点:一是由函数编写而成,不用改参数就可以直接使用。二是非常简单,加上注释最长的也不过11行。在介绍每一段代码时,Lee都给出了用途,也在代码中也给出注释。大家可以把这篇文章收藏起来,当做工具箱使用。 涵盖8大场景的数据清洗代码 这些数据清洗代码,一共涵盖8个场景,分别是: 删除多列、更改数据类型、将分类变量转换为数字变量、检查缺失数据、删除列中的字符串、
2021-11-30 15:39:28 59KB python python函数 python字符串连接
1
主要介绍当前在建设数据仓库中进行数据清洗中所遇到的问题及相应的策略。
2021-11-28 21:43:17 111KB 数据仓库 数据清洗 方法与策略
1
数据挖掘:数据清洗——数据噪声处理 一、什么是数据噪声? 数据噪声(Noise):数据集中的干扰数据(对场景描述不准确的数据),即测量变量中的随机误差或方差。 二、噪声数据与离群点的区别 观测量(Measurement) = 真实数据(True Data) + 噪声 (Noise):而离群点(Outlier)属于观测量,既有可能是真实数据产生的,也有可能是噪声带来的,但是总的来说是和大部分观测量之间有明显不同的观测值。 数据噪声与离群点有很多相同的地方。之间没有太过明确的定义,主要看应用的场景。如在信用卡诈骗中,我们通常会关注那些少量的异常数据,此时数据是具有探索意义的。而在一般的场景下,离
2021-11-24 14:57:50 422KB 大数据 数据 数据挖掘
1