计算机视觉-决策树学习MATLAB源码
与其他的数据挖掘算法相比,决策树有许多优点:
(1)易于理解和解释 人们很容易理解决策树的意义。
(2)只需很少的数据准备 其他技术往往需要数据归一化。
(3)即可以处理数值型数据也可以处理类别型 数据。其他技术往往只能处理一种数据类型。例如关联规则只能处理类别型的而神经网络只能处理数值型的数据。
(4)使用白箱 模型,输出结果容易通过模型的结构来解释。而神经网络是黑箱模型,很难解释输出的结果。
(5)可以通过测试集来验证模型的性能 。可以考虑模型的稳定性。
(6)强健控制. 对噪声处理有好的强健性。
(7)可以很好的处理大规模数据 。
缺点:
(1)训练一棵最优的决策树是一个完全NP问题。因此, 实际应用时决策树的训练采用启发式搜索算法例如 贪心算法 来达到局部最优。这样的算法没办法得到最优的决策树。
(2)决策树创建的过度复杂会导致无法很好的预测训练集之外的数据。这称作过拟合。 剪枝机制可以避免这种问题。
(3)有些问题决策树没办法很好的解决,例如 异或问题。解决这种问题的时候,决策树会变得过大。
1