《统计学习方法》是计算机及其应用领域的一门重要的学科。《统计学习方法》全面系统地介绍了统计学习的主要方法,特别是监督学习方法,包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与熵模型、支持向量机、提升方法、EM算法、隐马尔可夫模型和条件随机场等。除第1章概论和最后一章总结外,每章介绍一种方法。叙述从具体问题或实例入手,由浅入深,阐明思路,给出必要的数学推导,便于读者掌握统计学习方法的实质,学会运用。为满足读者进一步学习的需要,书中还介绍了一些相关研究,给出了少量习题,列出了主要参考文献。

针对书中某些地方的疑惑做出注释

  • p85

6.22式子
$$
\sum_{y}P(y|x)
=\sum_{y}\frac{exp(\sum_{i=1}^{n}w_{i}f_{i}(x,y))}{exp(1-w_{0})}
=1
$$

得到:
$$
Z_{w}(x)=\sum_{y}{exp(\sum_{i=1}^{n}w_{i}f_{i}(x,y))}=exp(1-w_{0})
$$


  • p87
    已知训练数据的经验分布函数
    $$
    \tilde{P(X,Y)}
    $$

,条件概率分布$P(Y|X)$的对数似然函数为
$$
L_{\tilde{p}}(P_{w})=log\prod_{x,y}^{}P(y|x)^{\tilde{P}(x,y)}
$$

如何理解这个对数似然函数呢?
因为一般的对数似然函数中,概率的指数部分一般都是整数,即这个概率在整个训练集中出现的次数,但是这里却还是一个概率。其实这里省略了一步,$P(y|x)$的指数部分应该是:

$$\tilde{P}(x,y)*N$$

其中N为训练集中的样本个数,取对数后就变成了

$$
L_{\tilde{p}}(P_{w})=log\prod_{x,y}^{}P(y|x)^{\tilde{P}(x,y)}=\sum_{x,y}\tilde{P}(x,y) \times N \times logP(y|x)
$$
可以看出,这个N对对数似然函数函数的极大化并没有影响,所以省去。

注:针对这个说法尚存疑问


  • p89:
    $$
    \begin{align}
    \frac{Z_{w+ \delta }(x)}{Z_{w}(x)}
    & = \sum_{y} \frac{exp( \sum_{i=1}^{n}(w_{i}+\delta_{i})f_{i}(x,y) ) }{Z_{w}(x)} \\
    & = \sum_{y}\frac{exp( \sum_{i=1}^{n}w_{i}f_{i}(x,y) ) exp( \sum_{i=1}^{n}\delta_{i}f_{i}(x,y) ) ) } {Z_{w}(x)}\\
    & = \sum_{y}\frac{exp( \sum_{i=1}^{n}w_{i}f_{i}(x,y) )}{Z_{w}(x)} exp( \sum_{i=1}^{n}\delta_{i}f_{i}(x,y) ) ) \\
    & = \sum_{y}p_{w}(y|x)exp( \sum_{i=1}^{n}\delta_{i}f_{i}(x,y) )
    \end{align}
    $$