2019-08-06

特征工程-特征归一化

为什么要归一化？

在实际应用中，通过梯度下降一类的方法需要进行归一化，比如逻辑回归，线性回归，SVM，神经网络，Adaboost，SVM，LR，Knn，KMeans等。但是决策树，朴素贝叶斯，隐马尔可夫等模型不需要归一化。因为前者是基于数值的决策，对单位敏感度高，如果不进行归一化操作可能会导致x/y中有一个变量的影响力$\uparrow$，可能需要更多轮次的迭代才能得到最终解。后者基于交叉熵的信息增益，基于概率分布模型，而概率本身是归一化的（%），所以不需要归一化。

![upload successful](\images\pasted-1.png)

逻辑回归一定要归一化么？

如果你用了L1L2正则的话需要，因为不用正则时，我们的损失函数只是仅仅在度量预测与真实的差距，加上正则后，我们的损失函数除了要度量上面的差距外，还要度量参数值是否足够小。而参数值的大小程度是与特征的数值范围相关的。

归一化的方法

线性函数归一化（适用于简单数值）：$X=\frac{X-X_{min}}{X_{max}-X_{min}}$
0均值归一化：$z=\frac{x-u}{\sigma}$

本文标题:特征工程-特征归一化

文章作者:SaltedMdFiveSh

发布时间:2019-08-06, 12:17:00

最后更新:2019-10-01, 13:43:35

原始链接:https://silver-birch-wawa.github.io/2019/08/06/特征工程-特征归一化/

许可协议: "署名-非商用-相同方式共享 4.0" 转载请保留原文链接及作者。