特征工程-特征归一化

为什么要归一化?

在实际应用中,通过梯度下降一类的方法需要进行归一化,比如逻辑回归,线性回归,SVM,神经网络,Adaboost,SVM,LR,Knn,KMeans等。但是决策树,朴素贝叶斯,隐马尔可夫等模型不需要归一化。因为前者是基于数值的决策,对单位敏感度高,如果不进行归一化操作可能会导致x/y中有一个变量的影响力$\uparrow$,可能需要更多轮次的迭代才能得到最终解。后者基于交叉熵的信息增益,基于概率分布模型,而概率本身是归一化的(%),所以不需要归一化。

![upload successful](\images\pasted-1.png)

逻辑回归一定要归一化么?

如果你用了L1L2正则的话需要,因为不用正则时,我们的损失函数只是仅仅在度量预测与真实的差距,加上正则后,我们的损失函数除了要度量上面的差距外,还要度量参数值是否足够小。而参数值的大小程度是与特征的数值范围相关的。

归一化的方法

  1. 线性函数归一化(适用于简单数值):$X=\frac{X-X_{min}}{X_{max}-X_{min}}$
  2. 0均值归一化:$z=\frac{x-u}{\sigma}$
文章目录
  1. 1. 为什么要归一化?
    1. 1.1. 逻辑回归一定要归一化么?
  2. 2. 归一化的方法
| 本站总访问量次 ,本文总阅读量