数据录入过程、数据整合过程都可能会产生重复数据,直接删除是重复数据处理的主要方法。pandas提供查看、处理重复数据的方法duplicated和drop_duplicates。以如下数据为例:发现重复数据通过duplicated方法完成,如下所示,可以通过该方法查看重复的数据。需要去重时,可drop_duplicates方法完成:drop_duplicates方法还可以按照某列去重,例如去除id列重复的所有记录:缺失值是数据清洗中比较常见的问题,缺失值一般由NA表示,在处理缺失值时要遵循一定的原则。首先,需要根据业务理解处理缺失值,弄清楚缺失值产生的原因是故意缺失还是随机缺失,再通过一些业务经
1
批量电子邮件收发人提取工具。大数据工具。经数十万封电子邮件测试。在win10+vs2017下编译运行,已经编译好,下载解压后可用。 用法简单:将电子邮件放到一个文件夹中,选中,点开工,立等可取。每个邮件独立提取。合并方法:到cmd中,进入该文件夹(例如cd c:\aa),输入命令copy *.txt all.txt,即可完成合并。
讲述了如何使用r语言来清理数据和数据与预处理,很多好用实用的小函数。
2021-02-04 15:09:34 428KB r语言 数据分析
1
 针对游客游迹跟踪与追溯系统,本文深入分析了游客游迹不确定数据产生的原因,根据景区应用特点,提出了一种游客游迹RFID数据处理与清洗方法。在数据处理时,引入事件概念,设计出了游客游迹RFID事件处理机制;引入过滤器概念,给出了游客游迹数据的一种过滤模型,设计了游客游迹数据的去噪、平滑以及去冗余清洗算法。最后,通过模拟场景的实验,对该算法的准确性和有效性进行了验证。
1
开源数据清洗工具,github,官网由于墙的原因,无法下载,共享到CSDN,方便大家下载。
2020-01-03 11:26:37 42.55MB openrefine 开源
1
目前很多的行人数据集都是seq视频格式,但是很多时候训练神经网络需要.jpg图片格式,这个小脚本可以将视频按帧采样成图像,我在Caltech行人数据集亲测可用,网上用"\xFF\xD8\xFF\xE0\x00\x10\x4A\x46\x49\x46" 来采样的经过实践显示不好使。
2019-12-21 21:55:51 682B 数据清洗 视频转图片
1
清华大学出版社,数据清洗(大数据应用人才培养系列教材)PPT
2019-12-21 21:18:49 41.74MB 李法平 数据清洗 PPT
1
简单试水……
2019-12-21 19:41:59 103KB data
1
海洋大数据给海洋数据的存储管理,分析挖掘带来巨大机遇和挑战。对多源感知与探测、存储与管理、分析挖掘、可视化角度对海洋大数据应用技术研究的基础和研究现状进行了分析。
2019-12-21 19:40:37 2.58MB 海洋大数据 数据管理 可视化 数据清洗
1
以狗熊会二手车数据为例,利用R语言进行回归分析,涉及原始数据的清洗、描述统计分析、经典回归模型建立、异常点诊断、交叉验证等技术,附有原始数据以及R完整代码、注释。
1