链家-python爬取信息、jupyter notebook数据清洗及可视化
2022-01-22 14:12:59 10.14MB python 爬虫 matplotlib pandas
1
数据清洗是提高数据集成数据质量的一个重要手段。提出了一种基于动态规则的数 据清洗方案AzszpClean,这种方法对各种清洗规则进行动态编译,将数据转换和数据清洗 两者结合起来,强化清洗过程的描述能力,同时采用规则队列的方式实现批量规则匹配。实 际应用表明,AzszpClean方法可以完成硬编码的功能,但具有更高的实现效率。
2022-01-21 23:15:23 464KB 数据清洗
1
第二章:数据清洗及特征处理 task01.ipynb
2022-01-14 18:03:18 101KB 数据分析
1
介绍数据清洗问题产生的背景和国内外研究现状。 给出数据清洗的定义和对象, 说明数据清洗的基本原理、模型, 分析相关算法与工具, 给出数据清洗评估方法; 并对今后数据清洗的研究和应用进行展望。
2022-01-11 09:42:18 548KB 数据清洗 ETL
1
据质量管理是信息系统建设的首要问题。本文首先回顾了数据质量的定义和质量提高策略的分类,然后 对数据质量研究涉及的两个主要方面,即数据质量评估和数据质量提高技术的各种方法进行了比较和分析,并对有代 表性的数据质量提高工具进行了介绍。最后提出了一个评估驱动的数据质量提高框架,并对数据质量研究方向进行 了展望。
2022-01-11 09:39:05 520KB 数据清洗研究综述
1
caj格式,需要下载相关阅读器 大数据的数据清洗方法研究_谭晖 电网运行数据清洗规则研究_周毅博 基于N_Gram算法的数据清洗技术_马平全 基于动态可配置规则的数据清洗方法_朱会娟 数据清洗下的改进半监督聚类入侵检测算法研究_周志平 基于关联数据的一致性和时效性清洗方法_杜岳峰 一种基于函数依赖的数据清洗方法_梁睿 医疗大数据网格化清洗策略_陈黎静
2022-01-02 19:15:47 2.79MB 论文 数据清洗 数据仓库 数据中心
1
1.2功能需求 明确任务:明确目的、确定思路 数据收集:网络爬虫、公开数据集、客户数据 数据处理:数据清洗、数据规整 数据分析:数据统计、探索性数据分析(EDA)、数据建模 结果展示:数据可视化、报表生成、结果保存 数据收集:获取歌单索引页、获取歌单详情页 数据处理:数据清洗、数据规整 数据分析统计:歌曲出现次数TOP10,歌单贡献UP主TOP10,歌曲播放量TOP10,歌单收藏量TOP10,歌单评论数TOP10 歌单收藏数量分布情况,单播放数量分布情况,歌单标签图,歌单介绍词云图 结果展示:可视化图表 二、项目分析与设计 2.1本项目需解决的关键技术问题 1.运用大数据分析技术对网站数据进行挖掘。 2.将挖掘到的数据输出到excel表格,并统一到一起进行整理。 3.对大量的数据基于Python进行技术分析,完成数据分析。 4.通过代码实现数据可视化,得出所需要的结论的图表形式。 2.2项目流程 1.基于Python语言,对网站数据进行爬取挖掘。 2.将数据整理到表格中。 3.对数据进行分析,并对数据进行统计处理,得到所需要的数据。 4.对数据进行计算处理,得到所需要的排名,占比等。 5.进行数据可视化,将得出的结论通过更直观的图表形式呈现。
2021-12-30 14:37:16 39.87MB 资料作业
1
开源ETL工具kettle,共三个分包,请在主页中将三个分包下载至同一文件夹解压(资源上传最大不得超过1000M,无奈)
2021-12-28 10:02:55 700MB ETL 数据清洗
1
开源ETL工具kettle,共三个分包,请在主页中将三个分包下载至同一文件夹解压(资源上传最大不得超过1000M,无奈)
2021-12-28 10:02:54 700MB ETL 数据清洗
1
KETTLE中文版的详细使用文档,含数据清洗方法论,适合入门和进阶使用,含一定案例。
2021-12-27 09:07:37 94.6MB KETTLE ETL 数据清洗
1