本书对数据挖掘的基本算法进行了系统介绍,每种算法不仅介绍了算法的基本原理,而且配有大量例题以及源代码,并对源代码进行了分析,这种理论和实践相结合的方式有助于读者较好地理解和掌握抽象的数据挖掘算法。
全书共分11章,内容同时涵盖了数据预处理、关联规则挖掘算法、分类算法和聚类算法,具体章节包括绪论、数据预处理、关联规则挖掘、决策树分类算法、贝叶斯分类算法、人工神经网络算法、支持向量机、Kmeans聚类算法、K中心点聚类算法、神经网络聚类算法以及数据挖掘的发展等内容。
本书可作为高等院校数据挖掘课程的教材,也可以作为从事数据挖掘工作以及其他相关工程技术工作人员的参考书。
第1章绪论 1
1.1数据挖掘的概念 1
1.2数据挖掘的历史及发展 1
1.3数据挖掘的研究内容及功能 5
1.3.1数据挖掘的研究内容 5
1.3.2数据挖掘的功能 6
1.4数据挖掘的常用技术及工具 9
1.4.1数据挖掘的常用技术 9
1.4.2数据挖掘的工具 12
1.5数据挖掘的应用热点 12
1.6小结 14
思考题 15
第2章数据预处理 16
2.1数据预处理的目的 16
2.2数据清理 18
2.2.1填充缺失值 18
2.2.2光滑噪声数据 18
2.2.3数据清理过程 19
2.3数据集成和数据变换 20
2.3.1数据集成 20
2.3.2数据变换 21
2.4数据归约 23
2.4.1数据立方体聚集 23
2.4.2维归约 23
2.4.3数据压缩 24
2.4.4数值归约 25
2.4.5数据离散化与概念分层 28
2.5特征选择与提取 302.5.1特征选择 30
2.5.2特征提取 31
2.6小结 33
思考题 33
第3章关联规则挖掘 35
3.1基本概念 35
3.2关联规则挖掘算法——Apriori算法原理 36
3.3Apriori算法实例分析 38
3.4Apriori算法源程序分析 41
3.5Apriori算法的特点及应用 50
3.5.1Apriori算法特点 50
3.5.2Apriori 算法应用 51
3.6小结 52
思考题 52
第4章决策树分类算法 54
4.1基本概念 54
4.1.1决策树分类算法概述 54
4.1.2决策树基本算法概述 54
4.2决策树分类算法——ID3算法原理 56
4.2.1ID3算法原理 56
4.2.2熵和信息增益 57
4.2.3ID3算法 59
4.3ID3算法实例分析 60
4.4ID3算法源程序分析 64
4.5ID3算法的特点及应用 72
4.5.1ID3算法特点 72
4.5.2ID3算法应用 72
4.6决策树分类算法——C4.5算法原理 73
4.6.1C4.5算法 73
4.6.2C4.5算法的伪代码 75
4.7C4.5算法实例分析 76
4.8C4.5算法源程序分析 77
4.9C4.5算法的特点及应用 101
4.9.1C4.5算法特点 101
4.9.2C4.5算法应用 101
4.10小结 102
思考题 102
第5章贝叶斯分类算法 103
5.1基本概念 103
5.1.1主观概率 103
5.1.2贝叶斯定理 104
5.2贝叶斯分类算法原理 105
5.2.1朴素贝叶斯分类模型 105
5.2.2贝叶斯信念网络 107
5.3贝叶斯算法实例分析 110
5.3.1朴素贝叶斯分类器 110
5.3.2BBN 112
5.4贝叶斯算法源程序分析 114
5.5贝叶斯算法特点及应用 119
5.5.1朴素贝叶斯分类算法 119
5.5.2贝叶斯信念网 120
思考题 121
第6章人工神经网络算法 122
6.1基本概念 122
6.1.1生物神经元模型 122
6.1.2人工神经元模型 123
6.1.3主要的神经网络模型 124
6.2BP算法原理 126
6.2.1Delta学习规则的基本原理 126
6.2.2BP网络的结构 126
6.2.3BP网络的算法描述 127
6.2.4标准BP网络的工作过程 129
6.3BP算法实例分析 130
6.4BP算法源程序分析 134
6.5BP算法的特点及应用 143
6.5.1BP算法特点 143
6.5.2BP算法应用 144
6.6小结 145
思考题 145
第7章支持向量机 146
1