logo
Loading...

【QA】什麼是降維(Dimension Reduction)? - 【教材專區】學習AI有困難? 讓Cupoy助教來幫你! - Cupoy

https://drive.google.com/drive/folders/1WoTFt_kFeMQN9H0bB-t_FWVTfOXyDnE8?usp=sharing 廣義問題1,2,3 1.什麼...

https://drive.google.com/drive/folders/1WoTFt_kFeMQN9H0bB-t_FWVTfOXyDnE8?usp=sharing 廣義問題1,2,3 1.什麼是降維? 降維廣義上來說是指通過保留一些比較重要的特徵,去除一些冗餘的特徵,減少數據特徵的維度。 而特徵的重要性取決於該特徵能夠表達多少數據集的資訊,也取決於使用什麼方法進行降維。 一般情況會先使用線性的降維方法再使用非線性的降維方法,通過結果去判斷哪種方法比較合適。 2.甚麼情況下用? 1)特徵維度過大,可能會導致過擬合時 2)某些樣本數據不足的情況(缺失值很多) 3)特徵間的相關性比較大時 3.降維的好處? (1)節省存儲空間; (2)加速計算速度,維度越少,計算量越少,並且能夠使用那些不適合於高維度的演算法; (3)去除一些冗餘的特徵(原數據中既有平方米和平方英里的特徵--即相關性大的特徵) (4)便於觀察和挖掘資訊(如將數據維度降到2維或者3維使之能可視化) (5)特徵太多或者太複雜會使得模型過擬合。 降維方法兩大類: 1.特徵選擇(Feature Selection): Backward Elimination 反向淘汰 Forward Selection 順向選擇 Bidirectional 雙向淘汰 2.特徵提取(Feature Extration): 主成分分析(PCA) 核函數主成分分析 (KernelPCA) LDA Note: 通過提取之後產生的自變量跟原來的自變量完全不一樣了。 主要降低自變量個數 當數據裡面有m個自變量時,主成分分析PCA可以從所有自變量中提取出p個新的自變量(p<=m), 這p個自變量可以較好的解釋數據自變量的差異性(方差),無論因變量是多少。 PCA是一個非監督式學習,因為它的因變量不被考慮在內。 通常在數據預處理當中 PCA:尋找最大方差所屬方向 後來的自變量為原本自變量重組後的結果。 總結一些降維方法