logo
Loading...

資料處理與特徵工程-簡報檔 - 資料處理與特徵工程 - Cupoy

資料科學流程 資料處理與特徵工程 為什麼需要資料處理與特徵工程 資料處理與特徵工程的重要性 「垃圾進,垃圾出」 「數據和特徵決定了機器學習的上限,而模型和算法只是逼近這個上限而已」 ...

資料科學流程 資料處理與特徵工程 為什麼需要資料處理與特徵工程 資料處理與特徵工程的重要性 「垃圾進,垃圾出」 「數據和特徵決定了機器學習的上限,而模型和算法只是逼近這個上限而已」 資料科學裡最需要創意的一環 需要腦力激盪 需要知道領域知識 知道甚麼特徵在過去是有用的 類別型特徵 通常需要作處理 維度太多會造成太稀疏的矩陣 較難填補缺失值 數值型特徵 比較容易作為演算法的 input 可以是 float,integer 較容易填補遺失值 套件介紹 scikit-learn - 資料前處理,回歸,分類演算法 pandas - 數據分析與操作 numpy - 維度陣列與矩陣運算,提供大量的數學函式庫 seaborn - 畫圖 Part 1 - 資料處理 資料處理 資料探索性分析(Exploratory Data Analysis-EDA) 重覆與單一數值 缺失值處理 標準化 編碼( Encoding) 類別型 數值型 EDA-敘述統計 觀看資料分布的方法 number of NAN number of 0 Max min mean …etc EDA-箱型圖 箱型圖是一個能夠通過 5 個數字來描述數據的分佈的標準方式,這5個數字包括:最小值,第一分位,中位數,第三分位數,最大值。 EDA-直方圖 簡單直觀,很容易根據柱子的長短看出值的大小。 重覆與單一數值 刪除重複資料:若兩筆或以上資料在所有特徵的內容皆相同,則會刪除重複並僅保留一筆資料 特徵欄位若僅包含單一數值或單一類別將不納入建模 缺失值處理 捨棄 補值 固定數值 平均值:基礎 眾數   中位數:對於離群值可以避免受其影響 用其它行去做預測 Standardization 提升模型的收斂速度 提高模型的精準度 類別型 Encoding 標籤編碼( Label Encoding ): 把每個類別轉換到某個整數,不會增加新欄位,使用時機通常是該資料中不同類別是有序的。ex. 類別有小孩、年輕人、老人,根據年齡分組,使用標籤編碼表示為 0, 1, 2 是合理的,因為年齡上老人 > 年輕人、年輕人 > 小孩 獨熱編碼(One-Hot Encoding): 為每個類別新增一個欄位,用 0/1 表示是否。使用時機通常是該資料中不同類別是無序的。 數值型 Encoding Binarizer:根據閾值將數值型轉變為二進制型,閾值可以進行設定,另外只能對數值型數據進行處理 binning:使用邊界,轉成多個組別 Part 2 - 特徵工程 特徵工程 特徵選擇 (Feature Selection)                 1.1  Random Forest                 1.2  卡方檢定                 1.3  Recursive Feature Elimination(RFE)     2.   特徵建立(Feature Construction)     3.   特徵組合(Feature Combination)     4.   特徵交互(Features Interaction)     5.   特徵提取 (Feature Extraction)  Random Forest(隨機森林) 介紹 隨機森林是決策樹的組成 甚麼決策樹? 決策樹 決策樹的 Gini 不純度 (Gini Impurity) Random Forest(隨機森林) 為甚麼是隨機? Ans:因為需要隨機抽樣。 特徵選擇 (Feature Selection) 卡方檢定:自變數與因變數的關係,有關、或者獨立互不影響 Recursive Feature Elimination:通過學習器返回的 coef_ 屬性 或者 feature_importances_ 屬性來獲得每個特徵的重要程度。 然後,從當前的特徵集合中移除最不重要的特徵。在特徵集合上不斷的重複遞歸這個步驟,直到最終達到所需要的特徵數量爲止 特徵建立(Feature Construction) user 購物的資料 aggregate 得到 total spend spend in last week 、spend in last month 、spend in last year 某些區域的銷售業績 店內某些品牌的業績     2.  身高、體重、BMI 特徵組合(Feature Combination) continuous 和 categorical                ex. Age+Male/Female               ex. 某些疾病在某個性別與年齡層的分佈狀況     2.  categorical 和 categorical                ex. rich/middle/poor +male/female 特徵交互 (Features Interaction) 針對 continuous 特徵 假設你有 A 和 B 兩個 continuous 特徵 你可以用 A + B、A - B、A * B 或 A / B  Ex. 購物的資料 spend/people = spend per person family spend = family_member1+family_member2… 品項業績 = 品項*單價金額 女性業績 = 全部業績 - 男性業績