此文件为Python 123 平台 Python语言程序设计 练习7:文件与数据格式化的CSV格式数据清洗附件
2021-11-10 22:07:53 257B Python 123 格式数据清洗
1
思维导图
2021-11-03 22:07:00 373KB 大数据
1
第一章:数据清洗常用工具1.numpy常用数据结构常用清洗工具:numpy常用数据结构:Numpy常用方法数组访问方法练习(jupyter)代码下面是结果2.Numpy常用数据清洗函数数据的排序数据的搜索练习(jupyter)代码下面是结果3.Pandas常用数据结构series和dataframeseriesdataframe常用方法练习(jupyter)代码下面是结果 1.numpy常用数据结构 常用清洗工具: 目前在Python中, numpy和pandas是最主流的工具 Numpy中的向量化运算使得数据处理变得高效 Pandas提供了大量数据清洗的高效方法 在Python中,尽可能多的
2021-11-03 13:54:19 596KB AND AS mp
1
数据清洗公开课.zip
2021-11-01 18:02:57 2.04MB python
内容:其中包含2002、2011、2017三年国民经济行业分类和代码的MySQL文件,每一个表的格式如下:例如第一列是“ A0111 ”,那么第二列就是“ 农、林、牧、渔业·农业·谷物及其他作物的种植·谷物的种植 ”,三年的行业代码和分类做了汇总统计,每一个代码分为四级结构,“门类·大类·中类·小类”。 适用人群:需要对数据进行行业维度的清洗和标准化的大数据技术人员。
内容:压缩包有6个excel文件,分别对应2002,2011,2017年三年的国民经济行业分类与代码表,每一年的表有两个,其中一个是国家统计局发的原版,另一个是经过处理的简化版。简化版表格共有两列,其中一列是编码,另一列是编码对应的名称,比如第一列是”“A”,对应的第二列就是“农、林、牧、渔业”。 适用人群:需要做行业维度的数据分析和数据清洗的相关技术人员,需要国民经济行业分类与代码excel表的人员。 使用场景:主要用于行业分类和编码的标准化。
包含8台风力电机1年的10min间隔SCADA运行数据,包括时间戳信息、风速信息和功率信息等。数据来源自某风电场群的1年SCADA真实运行数据,主要有4个维度信息分别为时间戳、风速、功率和风轮转速,并且给出风机参数说明罗列了各风机的风轮直径、额定功率和风轮转速范围等信息,该数据集从风机实际生产过程中收集,是风机在实际工况条件下运行的典型结果
1
数据挖掘:数据清洗——数据不平衡处理 一、什么是数据不平衡? 不平衡数据集指的是数据集各个类别的样本数目相差巨大,也叫数据倾斜。以二分类问题为例,即正类的样本数量远大于负类的样本数量。严格地讲,任何数据集上都有数据不平衡现象,一点的差异不会引起太多的影响,我们只关注那些分布差别比较悬殊的。 关于分布悬殊:如果类别不平衡比例超过4:1,那么其分类器会大大地因为数据不平衡性而无法满足分类要求的。因此在构建分类模型之前,需要对分类不均衡性问题进行处理。 不平衡数据的学习即需要在分布不均匀的数据集中学习到有用的信息。 二、不平衡数据例子 ① 在二分类问题中,训练集中class 1的样本数比上clas
2021-10-19 21:06:07 577KB test 交叉验证 分类器
1
1。 将本地sql文件写入mysql数据库 本文写入的是python数据库的taob表 source [本地文件] 其中总数据为9616行,列分别为title,link,price,comment 2。使用python链接并读取数据 查看数据概括 #-*- coding:utf-8 -*- #author:M10 import numpy as np import pandas as pd import matplotlib.pylab as plt import mysql.connector conn = mysql.connector.connect(host='localhost
2021-10-14 19:59:11 183KB data python sql数据库
1
现实世界的数据常常是不完全的、有噪声的、不一致的。数据清洗过程包括遗漏数据处理,噪声数据处理,以及不一致数据处理。本节介绍数据清洗的主要处理方法。 遗漏数据处理 假设在分析一个商场销售数据时,发现有多个记录中的属性值为空,如顾客的收入属性,则对于为空的属性值,可以采用以下方法进行遗漏数据处理。 1)忽略该条记录 若一条记录中有属性值被遗漏了,则将此条记录排除,尤其是没有类别属性值而又要进行分类数据挖掘时。 当然,这种方法并不很有效,尤其是在每个属性的遗漏值的记录比例相差较大时。 2)手工填补遗漏值 一般这种方法比较耗时,而且对于存在许多遗漏情况的大规模数据集而言,显然可行性较差。 3)利用默
2021-10-14 17:16:58 118KB bin 大数据 数据
1