本压缩包可供个人学习实践使用,严禁除此以外的一切用途!违法必究
2022-10-20 19:05:13 1.79MB etl 数据库 大数据 数据清洗
1
抽烟检测一共2500多张图片含负样本,训练测试比例为8:2。进行了数据划分,数据增强,数据清洗,负样本添加,可以直接下载使用。准确率可达0.98+
2022-09-28 12:05:38 268.82MB 抽烟检测 深度学习 人工智能
1
针对现实数据集的数据缺失问题,提出了一种基于双聚类的缺失数据填补新方法。该算法利用双聚类簇内平均平方残值越小簇内数据相似性越高的这一特性,将缺失数据的填补问题转换为求解特定双聚类簇最小平均平方残值的问题,进而实现了数据集中缺失元素的预测;再利用二次函数求解极小值的思想对包含有缺失数据的特定双聚类簇最小平均平方残值的问题进行求解,并进行了数学上的分析证明。最后进行仿真验证,通过观察UCI数据集的实验结果可知,提出的算法具有较高的填补准确性。
1
目录 一、数据采集 二、原始数据的获取 2.1 使用JMP软件从数据库获取数据 2.2 使用EXCEL从数据库获取数据 2.3 将多个数据文件合并到一个表 三、数据清洗 3.1 选择子集 3.2 字段(列名)重命名 3.3 删除重复值 3.4 缺失值处理 3.5 一致化处理 3.6 数据堆叠 3.7 异常值的判断与处理
2022-09-10 19:03:33 11.96MB 数据采集 数据清洗 JMP操作 excel操作
1
对输入数据进行随机划分,并将xml文件转为txt
2022-08-24 21:05:24 11KB 数据清洗
1
Data Base Technique 数据库技术 Electronic Technology & Software Engineering 电子技术与软件工程 157 【关键词】大数据 数据清洗技术 数据质量 1 数据清洗技术概述 数据清洗技术是为了提高数据质量而剔 除数据中错误记录的一种技术手段,在实际应 用中通常与数据挖掘技术、数据仓库技术、数 据整合技术结合应用。数据清洗技术的基本原 理为:在分析数据源特点的基础上,找出数据 质量问题原因,确定清洗要求,建立起清洗模 型,应用清洗算法、清洗策略和清洗方案对应 到数据识别与处理中,最终清洗出满足质量要 求的数据。具体如 1 所示。数据清洗是数据分 析、数据挖掘的前提,也是数据预处理的关键 环节,可保证数据质量和数据分析的准确性。 在大数据环境下,数据清洗技术已经被广泛应 用于大健康、银行、移动通信、交通等领域, 在一定程度上保证了数据质量,为大数据决策 提供了可靠依据。 2 大数据的数据清洗技术及应用 2.1 基于函数依赖的数据清洗技术 基于函数依赖的数据清洗技术,可解决 数据异常、重复、错误、缺失等问题,能够在 数据预处理环节对
2022-06-22 09:03:39 1.43MB 文档资料
201 7 年 第 1 期 信 息 通 信 2017 (总第 169 期) INFORMATION & COMMUNICATIONS (Sum. No 169) 大数据的数据清洗方法研究 谭 晖 S摩振松、周小翠S贺 凡 2 (1.中国移动通信集团湖北有限公司, 湖北武汉,430023;2.北京协成致远网络科技有限公司, 北京,100036) 摘要: 降低运营成本, 提升企业收入, 一直都是企业管理层关心的重点。大数据的思维, 为企业的运营提供了彳艮好的思 路。在各类大数据项目中, 數据的清洗成为新的焦点, 如何快速高效去掉脏数据、 对有用数据进行恢复、 提升数据质量, 对大数据项目的正常运营具有重要影响。基于当前各类数据清洗中存在的不足, 文章提出一种基于函数依赖的数据清 洗方法, 可补全缺失数据、 修正错误数据、 消除重复值、 修复异常数据, 达到数据质量提升的目的。 关键词:客户感知;终端;移动互联网; 抓包; 网络质量 中图分类号:TP311 文献标识码: A 文章编号:1673-1131(2017)01-0238-02 0 引言 随着移动互联网的发展,移动大数据已经成为业界最
2022-06-22 09:03:38 1.51MB 文档资料
【非常重要】课程资料 CLASSDATA_第五门_专题一地理空间三维可视化技术.rar CLASSDATA_第二门_数据辅助决策:商业智能.zip CLASSDATA_第三门_交互图表:Echarts数据渲染技术.zip CLASSDATA_第四门_图表到设计:数据可视化理论增强_课程资料.zip CLASSDATA_第一门_存储与管理:数据库PostgreSQL.zip 【非常重要】项目答案 项目04参考答案-连接数据源及数据清洗-15题.docx 考核项目09_单时间线趋势表达,以降雨量数据为例.rar 考核项目10_日历数据表达,以每日运动数据为例.rar 考核项目11_投资数据表达,以股票数据为例.rar 考核项目12_综合动态数据表达,以身材指标数据为例.rar 考核项目1_个人数据库搭建参考答案.zip 考核项目2_数据清洗及筛选综合实践参考答案.zip 考核项目3_基于PostgreSQL的消费数据解析参考答案.zip 考核项目05-利用销售数据建立报表.zip 考核项目06-结合公式制作超市物流分析报表.zip 项目07参考答案-【练习】风投资数据制作产业与投资机构选择
原始体检数据存在信息模糊、有噪声、不完整和冗余的问题,无法直接用于疾病的风险评估与预测。由于体检数据在结构和格式等方面的不足,不适合采用传统的数据预处理方法。为了充分挖掘体检数据中有价值的信息,从多角度提出了针对体检数据的预处理方法:通过基于压缩方法的数据归约,降低了体检数据预处理的时间及空间复杂度;通过基于分词和权值的字段匹配算法,完成了体检数据的清洗,解决了体检数据不一致的问题;通过基于线性函数的数据变换,实现了历年体检数据的一致性和连续性。实验结果表明,基于分词和权值的字段匹配算法,相对于传统算法具有更高的准确性。
1
# 过滤文本中的html链接等 # 提取微博中的话题名称#和人名@ # 分词 #去除停用词 # 表情处理
2022-06-08 18:03:25 2KB python 开发语言
1