小结
5.3关联规则主要介绍了Apriori算法,以在一个数据集中找出各项之间的 关系;
5.4时序模式从序列的平稳性和非平稳型出发,对平稳时间序列主要介绍 了ARMA模型,对差分平稳序列建立了ARIMA模型,应用这两个模型对 相应的时间序列进行研究,找寻变化发展的规律,预测将来的走势;
5.5离群点检测主要介绍了基于模型和离群点的检测方法,是发现与大部 分其他对象显著不同的对象。
前5章是数据挖掘必备的原理知识,并为本书后面章节的案例理解和实验 操作奠定了理论基础。
聚类分析——常用聚类分析算法
与分类不同,聚类分析是在没有给定划分类别的清况下,根据数据相似 度进行样本分组的一种方法。
与分类模型需要使用有类标记样本构成的训练数据不同,聚类模型可以 建立在无类标记的数据上,是一种非监督的学习算法。
聚类的输入是一组未被标记的样本,聚类根据数据自身的距离或相似度 将他们划分为若干组,划分的原则是组内样本最小化而组间(外部)距 离最大化