统计学习方法笔记

《统计学习方法》是计算机及其应用领域的一门重要的学科。《统计学习方法》全面系统地介绍了统计学习的主要方法，特别是监督学习方法，包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与熵模型、支持向量机、提升方法、EM算法、隐马尔可夫模型和条件随机场等。除第1章概论和最后一章总结外，每章介绍一种方法。叙述从具体问题或实例入手，由浅入深，阐明思路，给出必要的数学推导，便于读者掌握统计学习方法的实质，学会运用。为满足读者进一步学习的需要，书中还介绍了一些相关研究，给出了少量习题，列出了主要参考文献。

针对书中某些地方的疑惑做出注释

6.22式子
$$
\sum_{y}P(y|x)
=\sum_{y}\frac{exp(\sum_{i=1}^{n}w_{i}f_{i}(x,y))}{exp(1-w_{0})}
=1
$$

得到：
$$
Z_{w}(x)=\sum_{y}{exp(\sum_{i=1}^{n}w_{i}f_{i}(x,y))}=exp(1-w_{0})
$$

p87
已知训练数据的经验分布函数
$$
\tilde{P(X,Y)}
$$

,条件概率分布$P(Y|X)$的对数似然函数为
$$
L_{\tilde{p}}(P_{w})=log\prod_{x,y}^{}P(y|x)^{\tilde{P}(x,y)}
$$

如何理解这个对数似然函数呢？
因为一般的对数似然函数中，概率的指数部分一般都是整数，即这个概率在整个训练集中出现的次数，但是这里却还是一个概率。其实这里省略了一步，$P(y|x)$的指数部分应该是:

$$\tilde{P}(x,y)*N$$

其中N为训练集中的样本个数，取对数后就变成了

$$
L_{\tilde{p}}(P_{w})=log\prod_{x,y}^{}P(y|x)^{\tilde{P}(x,y)}=\sum_{x,y}\tilde{P}(x,y) \times N \times logP(y|x)
$$
可以看出，这个N对对数似然函数函数的极大化并没有影响，所以省去。

注：针对这个说法尚存疑问

p89：
$$
\begin{align}
\frac{Z_{w+ \delta }(x)}{Z_{w}(x)}
& = \sum_{y} \frac{exp( \sum_{i=1}^{n}(w_{i}+\delta_{i})f_{i}(x,y) ) }{Z_{w}(x)} \\
& = \sum_{y}\frac{exp( \sum_{i=1}^{n}w_{i}f_{i}(x,y) ) exp( \sum_{i=1}^{n}\delta_{i}f_{i}(x,y) ) ) } {Z_{w}(x)}\\
& = \sum_{y}\frac{exp( \sum_{i=1}^{n}w_{i}f_{i}(x,y) )}{Z_{w}(x)} exp( \sum_{i=1}^{n}\delta_{i}f_{i}(x,y) ) ) \\
& = \sum_{y}p_{w}(y|x)exp( \sum_{i=1}^{n}\delta_{i}f_{i}(x,y) )
\end{align}
$$