目錄 什麼是「降維」? AutoEncoder 作為降維的工具 PCA v.s. AutoEncoder 實作範例 Reference 什麼是「降維」? 「降維」本身是個「非監督式學習」的技術 將原始資料內的特徵以「有用的技巧」萃取出有用的資訊,除了能更減少特徵數,更能強調出關鍵特徵 常見降維方法:Principle Components Analysis (PCA)、Factorial Analysis (FA)、AutoEncoder AutoEncoder 作為降維的工具 輸入:某一筆資料 輸出:與輸入相同的資料 架構 作為降維結果的地方:架構中正中間維度最小處(如上圖中 Z) PCA v.s. AutoEncoder PCA 是個「線性轉換」的降維方法;AutoEncoder是個「線性轉換」也是個「非線性轉換」的降維方法 PCA 本身屬於「公式解」,變異低;AutoEncoder 本身屬於「數值解」,會受到模型架構、神經元數量、模型訓練狀況影響產生出來的特徵,變異高 PCA 是個「可解釋」的方法,每個主成分中會含有各個特徵的權重,透過權重即可知道該主成分的含意;AutoEncoder 產生出來的低維度特徵由於已經經過複雜計算且是以「Gradient Descent」得出的結果,不容易解釋 實際案例 Fournier and Aloise (2021) 針對 PCA 與 AutoEncoder 在實際使用時做了實驗 Datasets: MNIST、Fashion-MNIST、CIFAR10 X軸:降維後取多少 percent 的特徵;Y軸:Accuracy 或 Training Time Reference Mungoli A. (2022 Jun. 19). Dimensionality Reduction: PCA versus Autoencoders. https://towardsdatascience.com/dimensionality-reduction-pca-versus-autoencoders-338fcaf3297dFournier Q. and Aloise D. (2021). Empirical comparison between autoencoders and traditional dimensionality reduction methods. arXiv:2103.04874