Loading...

D24-label encoding vs one hot encoding對於不同模型的影響? - Cupoy

在D24的範例與作業中，要我們去實作兩種encoding方式對於不同模型(線性回歸，決策樹，邏輯回歸...

D24-label encoding vs one hot encoding對於不同模型的影響?

2020/09/12 下午 05:28

類別型特徵 - 基礎處理

蘇蔚廷

觀看數：83

回答數：1

收藏數：1

在D24的範例與作業中，要我們去實作兩種encoding方式對於不同模型(線性回歸，決策樹，邏輯回歸)的影響，

對於結果的影響是不是因為:

1.線性回歸中不適合one hot encoding是否是因為會產生多重共線性，導致VIF過高預測不準確的問題?

2.在決策樹類的模型下，則是因為決策樹並不會因為特徵數值大小而受到影響，因此只要做label encoding即可，one hot encoding只是增加維度使樹狀結構的深度增加，對於預測並無幫助。

3.邏輯回歸雖然兩個結果看起來差不多，我認為是因為剛好用的自變數的變化量不大(大多都是男女，房間等差異)，多數欄位都是票據跟姓名產生的，所以用one hot encoding的影響不大。但是不是實作上也需要注意共線性的問題，要適度地去縮減欄位再用encoding會比較好?

以上三個問題不知道是否理解正確? 感謝

回答列表

2020/09/14 下午 02:44

張維元 (WeiYuan)

贊同數：3

不贊同數：0

留言數：0

嗨，這三個理解是對的，不過都是從編碼後的結果來看。我這邊比較喜歡從資料的特性來補充，可以參考我之前的文章：https://www.cupoy.com/clubnews/ai_tw/0000016D6BA22D97000000016375706F795F72656C656173654B5741535354434C5542/00000170992AC971000000156375706F795F72656C656173654B5741535354434C55424E455753

但是不是實作上也需要注意共線性的問題，要適度地去縮減欄位再用encoding會比較好?

=> 是

如果這個回答對你有幫助請主動點選「有幫助」或「最佳解答」的按鈕，也可以追蹤我的GITHUB 帳號。若還有問題的話，也歡迎再開一個新的問題繼續發問，或者把你理解的部分整理上來，我都會提供你 Review 和 Feedback 😃😃😃另外我目前有舉辦一個課程：【資料科學家的 12 堂心法課】或加入我自己的Line 群組社群，歡迎一起來玩玩！（By the way，我並不是主辦單位的人員，所以如果覺得我回答得不好，不要找他們抱怨/客訴XD）