本书对数据挖掘的基本算法进行了系统介绍,每种算法不仅介绍了算法的基本原理,而且配有大量例题以及源代码,并对源代码进行了分析,这种理论和实践相结合的方式有助于读者较好地理解和掌握抽象的数据挖掘算法。 全书共分11章,内容同时涵盖了数据预处理、关联规则挖掘算法、分类算法和聚类算法,具体章节包括绪论、数据预处理、关联规则挖掘、决策树分类算法、贝叶斯分类算法、人工神经网络算法、支持向量机、Kmeans聚类算法、K中心点聚类算法、神经网络聚类算法以及数据挖掘的发展等内容。 本书可作为高等院校数据挖掘课程的教材,也可以作为从事数据挖掘工作以及其他相关工程技术工作人员的参考书。 第1章绪论 1 1.1数据挖掘的概念 1 1.2数据挖掘的历史及发展 1 1.3数据挖掘的研究内容及功能 5 1.3.1数据挖掘的研究内容 5 1.3.2数据挖掘的功能 6 1.4数据挖掘的常用技术及工具 9 1.4.1数据挖掘的常用技术 9 1.4.2数据挖掘的工具 12 1.5数据挖掘的应用热点 12 1.6小结 14 思考题 15 第2章数据预处理 16 2.1数据预处理的目的 16 2.2数据清理 18 2.2.1填充缺失值 18 2.2.2光滑噪声数据 18 2.2.3数据清理过程 19 2.3数据集成和数据变换 20 2.3.1数据集成 20 2.3.2数据变换 21 2.4数据归约 23 2.4.1数据立方体聚集 23 2.4.2维归约 23 2.4.3数据压缩 24 2.4.4数值归约 25 2.4.5数据离散化与概念分层 28 2.5特征选择与提取 302.5.1特征选择 30 2.5.2特征提取 31 2.6小结 33 思考题 33 第3章关联规则挖掘 35 3.1基本概念 35 3.2关联规则挖掘算法——Apriori算法原理 36 3.3Apriori算法实例分析 38 3.4Apriori算法源程序分析 41 3.5Apriori算法的特点及应用 50 3.5.1Apriori算法特点 50 3.5.2Apriori 算法应用 51 3.6小结 52 思考题 52 第4章决策树分类算法 54 4.1基本概念 54 4.1.1决策树分类算法概述 54 4.1.2决策树基本算法概述 54 4.2决策树分类算法——ID3算法原理 56 4.2.1ID3算法原理 56 4.2.2熵和信息增益 57 4.2.3ID3算法 59 4.3ID3算法实例分析 60 4.4ID3算法源程序分析 64 4.5ID3算法的特点及应用 72 4.5.1ID3算法特点 72 4.5.2ID3算法应用 72 4.6决策树分类算法——C4.5算法原理 73 4.6.1C4.5算法 73 4.6.2C4.5算法的伪代码 75 4.7C4.5算法实例分析 76 4.8C4.5算法源程序分析 77 4.9C4.5算法的特点及应用 101 4.9.1C4.5算法特点 101 4.9.2C4.5算法应用 101 4.10小结 102 思考题 102 第5章贝叶斯分类算法 103 5.1基本概念 103 5.1.1主观概率 103 5.1.2贝叶斯定理 104 5.2贝叶斯分类算法原理 105 5.2.1朴素贝叶斯分类模型 105 5.2.2贝叶斯信念网络 107 5.3贝叶斯算法实例分析 110 5.3.1朴素贝叶斯分类器 110 5.3.2BBN 112 5.4贝叶斯算法源程序分析 114 5.5贝叶斯算法特点及应用 119 5.5.1朴素贝叶斯分类算法 119 5.5.2贝叶斯信念网 120 思考题 121 第6章人工神经网络算法 122 6.1基本概念 122 6.1.1生物神经元模型 122 6.1.2人工神经元模型 123 6.1.3主要的神经网络模型 124 6.2BP算法原理 126 6.2.1Delta学习规则的基本原理 126 6.2.2BP网络的结构 126 6.2.3BP网络的算法描述 127 6.2.4标准BP网络的工作过程 129 6.3BP算法实例分析 130 6.4BP算法源程序分析 134 6.5BP算法的特点及应用 143 6.5.1BP算法特点 143 6.5.2BP算法应用 144 6.6小结 145 思考题 145 第7章支持向量机 146
2020-10-29 15:29:10 31.33MB 数据挖掘 算法 数据仓库
1
中文译本,高清版本,详细讲解维度模型设计与实现方案,缓慢变化维实现技术。
2020-04-30 22:33:15 4.25MB dw etl
1
这是一个关于数据仓库模型设计的模板,每个标题里面都有相应内容解释,告诉大家如何写每个标题的内容。
2020-03-19 03:02:20 61KB 数据仓库
1
主要介绍数据仓库和数据挖掘技术的基本原理和应用方法,全书共分为12章,主要内容包括数据仓库的概念和体系结构、数据仓库的数据存储和处理、数据仓库系统的设计与开发、关联规则、数据分类、数据聚类、贝叶斯网络、粗糙集、神经网络、遗传算法、统计分析、文本和Web挖掘
2020-03-04 03:08:50 53.31MB 数据仓库
1
数据仓库工具箱中文版,这是最新版的数据仓库工具性扫描版本。
2020-01-27 03:16:25 113.78MB 数据仓库 数据模型
1
[美] Paulraj Ponniah 著,段云峰 李剑威 韩 洁 宋美娜 译,纯文字版,带目录。
2020-01-21 03:03:15 22.3MB 数据仓库
1
Druid 是一个为大型(设计为 PB 级别)数据集上实时探索查询而设计的开源数 据分析和存储系统,提供极具成本效益并且永远在线(24x7x365x10)的实时数据摄 取和任意数据处理,并且在面对代码部署、机器故障以及其他意外情况时能保证 系统集群正常运行。 Druid 自发布以来,Github 上代码的活跃度一直很高,已经有很多组织和个 人参与到该项目的开发中来。因此 Druid 在过去的一年多时间里一直保持着很高 的版本发布频次。截至本文译本完成时, Druid 已经释放出 0.8.0 的稳定版本,该 版本在集群的稳定性和查询性能上已经有了相当的提升,同时也提供了“简单的” 界面支持。 本文是 Druid 官方提供的论文(WhitePaper)的中文译版,主要介绍 Druid 的核 心概念和架构设计原理。 由于目前 Druid 相关的文字资料相当稀少,除了其官方提供的一些指导文档, 本文也是最珍贵的文字资料之一。
2020-01-20 03:06:23 1.52MB Druid
1
基于CarbonData构建万亿级数据仓库.pdf
2020-01-16 03:05:42 5.46MB CarbonData
1
本文按照数据仓库研发过程体系的全流程进行叙述。每个流程从简介出发,通过对流程 与规范、过程实施方法进行阐述,其中流程及规范阐述了角色及职责、输入输出件、流程图 信息;过程实施方法则阐述了具体过程及相关模板、%给工具的相关需求及过程的数据质量保障信息。
2020-01-03 11:40:28 1.21MB 数据仓库 研发规范
1
适用于CentOS6、CentOS7 64位版本,亲测有效。32位未测试。
2020-01-03 11:39:14 127.44MB postgres greenplum 数据仓库
1