10.3 统计机器学习
机器学习是近年来得到快速发展和广泛应用的研究领域,它研究的是用数据或先验知
识优化计算机算法的效果。从机器学习的方法可以分为统计方法和非统计方法。非统计的
方法种类很多,并且往往最后都归结于一个具体的优化问题,可以通过深入掌握优化理论
和算法,比较有效地把握各种非统计类方法。而统计类机器学习方法,虽然也用到最优化
方法,但是还有一些在概率框架下系统性的思路。下面我们把统计方法的脉络稍加整理,
供大家参考。
10.3.1 最大熵与指数族分布
统计机器学习中,指数族形式[9]的分布由于求解的方便性,有非常重要的工程地位,
我们先来看一下这一族分布形式产生的原因。要了解指数族形式产生的原因,需要先了解
最大熵(Maximum Entropy,ME)原理[6]。最大熵原理告诉我们,当在某些约束条件下选
择统计模型时,需要尽可能选择满足这些条件的模型中不确定性最大的那个。如果采用熵
作为统计不确定性的度量,这个问题就变成一个在这些约束下优化熵的问题。在最大熵的
准则下,估计一个概率的优化问题可以表示成:
1