logo
Loading...

【QA】歸一化(Normalization)、標準化(Standardization)、中心化(Zero-centered)分別是甚麼? - Cupoy

此三種做法的目的、具體的做法與使用時機分別為何?能否舉出應用的例子?

【QA】歸一化(Normalization)、標準化(Standardization)、中心化(Zero-centered)分別是甚麼?

2022/02/14 上午 01:53
機器學習共學討論版
Jaio
觀看數:2617
回答數:1
收藏數:0

此三種做法的**目的**、**具體的做法**與**使用時機**分別為何? 能否舉出**應用的例子**?

回答列表

  • 2022/02/14 上午 01:54
    Jaio
    贊同數:1
    不贊同數:0
    留言數:0

    此三種方法的目標是**讓數據在訓練上更有意義**。 **歸一化**與**標準化**主要針對的問題 : 因為每筆數據有著**不同的單位**,有些單位的**數值大小**會落差很大,例如房價與坪數(2300萬與40坪),那麼若把這兩個特徵丟入模型,在**收斂上會產生問題**,所以需要一些手法**縮小他們的數值大小差距,且仍保有原始數據的意義**。 **中心化**主要針對的問題 : 數據的中心非原點,會導致**無法簡單地以向量表示數據**,所以希望能把數據的中心平移到原點。 **歸一化(Normalization) :** 目的 : 把數據變成某區間內的數(通常是 $$[0,1]$$ 或 $$[-1,1]$$ )。 作法 : 變成 $$[0,1]$$ 之間 → $$\frac{每一筆數據分別-數據的最小值}{數據的最大值-數據的最小值}$$。 變成 $$[-1,1]$$ 之間 → $$2\times \frac{每一筆數據分別-數據的最小值}{數據的最大值-數據的最小值}-1$$。 主要使用時機 : 1.有限定的輸出範圍(加速收斂)。 2.單純縮小數據尺度,並演算法中未使用特徵間的距離或離散程度(計算變異數)時。 常搭配之使用場景 : 1.大尺度特徵下想加速訓練(影像 0~255 像素質)。 **標準化(Standardization)(z-score歸一化) :** 目的 : 把數據變成同一個單位,讓原本不同單位的數據**可比較**。 作法 : $$\frac{每一筆數據分別 - 數據的平均}{數據的標準差}$$(中心化後數據再除以數據標準差)。 主要使用時機 : 1.若數據存在多噪音或較誇張的差距。 2.演算法需要用到特徵間的距離、離散程度時。 常搭配之使用場景 : 1.支援向量機 (SVM)。 2.最近鄰居法 (KNN)。 3.神經網路 (NN)。 3.PCA降維。 **中心化(Zero-centered) :** 作法 : $$每一筆數據分別 - 數據的平均$$ 事實上,以上的方法都類似中心化的概念,單純執行中心化只不過平移數據,對數據本身的意義影響不大。