D24-label encoding vs one hot encoding對於不同模型的影響?
在D24的範例與作業中,要我們去實作兩種encoding方式對於不同模型(線性回歸,決策樹,邏輯回歸)的影響,
對於結果的影響是不是因為:
1.線性回歸中不適合one hot encoding是否是因為會產生多重共線性,導致VIF過高預測不準確的問題?
2.在決策樹類的模型下,則是因為決策樹並不會因為特徵數值大小而受到影響,因此只要做label encoding即可,one hot encoding只是增加維度使樹狀結構的深度增加,對於預測並無幫助。
3.邏輯回歸雖然兩個結果看起來差不多,我認為是因為剛好用的自變數的變化量不大(大多都是男女,房間等差異),多數欄位都是票據跟姓名產生的,所以用one hot encoding的影響不大。但是不是實作上也需要注意共線性的問題,要適度地去縮減欄位再用encoding會比較好?
以上三個問題不知道是否理解正確? 感謝
回答列表
-
2020/09/14 下午 02:44張維元 (WeiYuan)贊同數:3不贊同數:0留言數:0
嗨,這三個理解是對的,不過都是從編碼後的結果來看。我這邊比較喜歡從資料的特性來補充,可以參考我之前的文章:https://www.cupoy.com/clubnews/ai_tw/0000016D6BA22D97000000016375706F795F72656C656173654B5741535354434C5542/00000170992AC971000000156375706F795F72656C656173654B5741535354434C55424E455753
但是不是實作上也需要注意共線性的問題,要適度地去縮減欄位再用encoding會比較好?
=> 是
如果這個回答對你有幫助請主動點選「有幫助」或「最佳解答」的按鈕,也可以追蹤我的GITHUB 帳號。若還有問題的話,也歡迎再開一個新的問題繼續發問,或者把你理解的部分整理上來,我都會提供你 Review 和 Feedback 😃😃😃另外我目前有舉辦一個課程:【資料科學家的 12 堂心法課】或加入我自己的Line 群組社群,歡迎一起來玩玩!(By the way,我並不是主辦單位的人員,所以如果覺得我回答得不好,不要找他們抱怨/客訴XD)