logo
Loading...

機器學習資料欄位太多 , 評估要刪除哪些欄位要看甚麼指標? - Cupoy

老師您好, 一般來說收到客戶提供的數據資料, 做完資料前處理後, 若數據集的資料欄位太多(也就是X值...

機器學習資料欄位太多 , 評估要刪除哪些欄位要看甚麼指標?

2022/02/15 上午 03:15
程式實作 EDA: correlation/相關係數簡介
Mandy Chen
觀看數:60
回答數:1
收藏數:0

老師您好, 一般來說收到客戶提供的數據資料, 做完資料前處理後, 若數據集的資料欄位太多(也就是X值欄位太多), 若要評估要刪除哪些對Y值影響不大的欄位, 這時候應該要看什麼指標呢? 我目前有嘗試用describe觀察在不同Y值下各個X值的表現, 但不知道還可以怎麼判斷會比較合適, 謝謝!

回答列表

  • 2022/02/18 下午 05:05
    王健安
    贊同數:3
    不贊同數:0
    留言數:0

    Mandy Chen 您好, 若是從統計角度思考, 可以使用假設檢定技巧或是相關性技術判斷用有的特徵哪些與目標值有顯著關係, 例如:假設目標為「是否會使用優惠券購買」等選擇題或是非題,且手上有100個特徵, 我們就能夠透過假設檢定(Student's t-test、Chi-Square test、ANOVA 等)判斷這些特徵各別在兩組資料(分別為會使用優惠券與不會使用優惠券等兩組)之間是否有顯著差異, 會使用 p-value 進行判斷, 當 p-value < 0.05,代表該特徵平均數在兩組資料之間有顯著差異, 這能預期該特徵具有高潛在影響模型預測能力; 若目標為「花多少錢購買」等數值類型問題, 則可使用 Pearson Coefficient Correlation 求出目標值與某個特徵的線性相關性, 若相關係數絕對值越高,則該特徵與目標值越有線性關聯性, 可預期該特徵高潛在地影響模型預測力。 若從機器學習演算法來看, Linear Regression、Logistic Regression 等模型的確需要事先挑選出有用的特徵, 但 Decision Tree、Random Forest、XGBoost、LightGBM 等樹狀結構的特徵則不必要刻意先挑選特徵, 因為這些樹狀結構會從最具影響力的特徵開始建立模型, 比較沒有顯著影響力的特徵就不容易被選上, 因此可以透過限制樹的深度篩選出有用的特徵, 藉以得到好的模型成效。