Standardization
提升模型的收斂速度
提高模型的精準度
類別型 Encoding
標籤編碼( Label Encoding ): 把每個類別轉換到某個整數,不會增加新欄位,使用時機通常是該資料中不同類別是有序的。ex. 類別有小孩、年輕人、老人,根據年齡分組,使用標籤編碼表示為 0, 1, 2 是合理的,因為年齡上老人 > 年輕人、年輕人 > 小孩
獨熱編碼(One-Hot Encoding): 為每個類別新增一個欄位,用 0/1 表示是否。使用時機通常是該資料中不同類別是無序的。
數值型 Encoding
Binarizer:根據閾值將數值型轉變為二進制型,閾值可以進行設定,另外只能對數值型數據進行處理
binning:使用邊界,轉成多個組別