博文中python数据清洗所用到的源数据,包括在线杂货店订单数据、摩托车的销售情况数据、关于淘宝母婴产品的用户消费行为的数据集
2022-05-10 19:00:54 2.76MB python
1
可以作为大数据预处理的MapReduce代码的参考!!! -执行脚本文件: cd /home/hadoop/logfiles/ source format_run_2013_o5_30.sh source format_run_2013_o5_31.sh 执行我们的脚本文件,可以用source或者./
2022-05-09 19:14:03 55KB python hadoop mapreduce 开发语言
数据缺失在大部分数据分析应用中都很常见,Pandas使用浮点值NaN表示浮点和非浮点数组中的缺失数据,他只是一个便于被检测出来的数据而已。Python内置的None值也会被当作NA处理处理NA的方法有四种:dropna,fillna,isnull,notnullis(not)null,这一对方法对对象做出元素级的应用,然后返回一个布尔型数组,一般可用于布尔型索引。dropna,对于一个Series,dropna返回一个仅含非空数据和索引值的Series。问题在于DataFrame的处理方式,因为一旦drop的话,至少要丢掉一行(列)。这里解决方法与前面类似,还是通过一个额外的参数:dropna
1
【特征工程是什么?】 身高不同的两人,比较体重毫无意义, 但是如果将身高体重加以计算,转化成了BMI指数:BMI=体重/(身高^2) 通过比较这个新创造的特征值,谁胖谁瘦就一目了然了。 这就是特征工程,将原始数据转换为可以更好的、代表预测模型潜在问题的特征,通过分析这个新的特征,可以得到更准确的预测结果。 【特征工程——Python数据分析必备】 脏数据的“清洗剂” 有人说:学会了Python语言,就会做数据分析? 不一定! 你拿到的数据样本集,有可能存在这些问题: 如果样本数据存在问题,对数据建模的执行效率会有很大影响,甚至可能会造成模型结果的偏差。 不懂特征工程,数据分析=白忙一场! 【站内首门!特征工程全解课程】 过去,数字化是企业优化的要点; 而今,数字化成为了企业活下去的关键。 而数据分析应用有多广,特征工程的学习需求就有多大。 不过,大部分课本对于特征工程这一知识点鲜有提及,市面上的课程也少之又少,导致很多人在实际工作或学习中,遇到问题束手无策,严重降低效率。 CSDN全站首发——Python数据处理与特征工程 课程聚焦数据科学中,数据清
1
常见网站日志生成过程业务详解 企业数据采集方案介绍 Flume拦截器、channel选择器、sink 处理器回顾 Flume实现日志采集到HDFS并自动分区 定时调度Shell脚本实现日志数据分区上传HDFS ETL实现思路分析 ETL中Driver类的实现 ETL中自定义Key的实现 ETL日志解析类的代码实现 ETL开发Mapper代码开发实现 ETL程序打包测试
2022-04-06 02:49:54 588.69MB 大数据 ETL 日志收集 数据采集
通过对基于K-means聚类的缺失值填充算法的改进,文中提出了基于距离最大化和缺失数据聚类的填充算法。首先,针对原填充算法需要提前输入聚类个数这一缺点,设计了改进的K-means聚类算法:使用数据间的最大距离确定聚类中心,自动产生聚类个数,提高聚类效果;其次,对聚类的距离函数进行改进,采用部分距离度量方式,改进后的算法可以对含有缺失值的记录进行聚类,简化原填充算法步骤。通过对STUDENT ALCOHOL CONSUMPTION数据集的实验,结果证明了该算法能够在提高效率的同时,有效地填充缺失数据。
1
数据常用筛选方法 在数据中,选择需要的行或者列 基础索引方式,就是直接引用 ioc[行索引名称或者条件,列索引名称或者标签] iloc[行索引位置,列索引位置] import pandas as pd import os import numpy as np os.getcwd() 'D:\\Jupyter\\notebook\\Python数据清洗实战\\数据清洗之数据表处理' os.chdir('D:\\Jupyter\\notebook\\Python数据清洗实战\\数据') df = pd.read_csv('baby_trade_history.csv', encoding=
2022-03-11 14:47:50 91KB 大数据 数据 数据清洗
1
数据清洗是一项复杂且繁琐的工作,同时也是整个数据分析过程中最为重要的环节。 在python中空值被显示为NaN。首先,我们要构造一个包含NaN的DataFrame对象。 >>> import numpy as np >>> import pandas as pd >>> from pandas import Series,DataFrame >>> from numpy import nan as NaN >>> data = DataFrame([[12,'man','13865626962'],[19,'woman',NaN],[17,NaN,NaN],[NaN,NaN,NaN]],co
2022-03-11 11:22:05 39KB axis data dataframe
1
包括了数据清洗全流程的实例:excel导入,定义数据框,按要求删除某一列下为一个指定值的数据记录,遍历数据集,分组分类变量用指定的数值型数值替换,按某一列的值拆分数据集,使用聚类分析将数据集分为两类,标记所属类别少的数据为异常数据
2022-02-21 09:08:54 16KB python 数据清洗 Jupiter 旅游数据
2021年大数据技术-大数据清洗流程与原则.pdf
2022-01-27 18:02:06 4.54MB 资料