先導數學知識準備 在正式深入理解之前還是需要鋪墊一些線性代數的基本概念及其計算公式,以方便大家理解之後的數學符號以及矩陣運算的推導過程。 1.1.1 內積與投影 兩個向量A,B內積的計算公式爲, 1.1.2 方差 用於描述數據的離散程度,計算公式爲, 一般爲了簡便計算,我們會對數值進行去中心化處理,即mu爲0,則此時計算公式可簡便爲, 1.1.3 協方差 用於描述倆個變量之間的相關性,數值去中心化處理以後,其計算公式爲, 利用該公式可以推廣出矩陣X的協方差矩陣的計算公式爲, 1.1.4 矩陣求導的性質 矩陣的求導,有如下性質, 矩陣的跡(即矩陣的對角線元素之和)有如下性質, 1.2 PCA基本概念理解 PCA(Principal Component Analysis),中文名爲“主成成分分析”。顧名思義,其目的就是找到高維數據中的主成分,並利用“主成分”數據,來表示原始數據,從而達到降維的目的。借鑑一個簡單的例子,假設有一組數據存在於三維空間的一個平面上(此時需要3個維度來表徵數據向量),若我們選擇旋轉座標軸使得數據所在平面與x,y平面重合,則此時我們只需要2個緯度即可表徵數據,且沒有丟失任何數據信息,這就是最簡單的數據降維。但是現實生活中的情況,往往數據特徵高達上百甚至上千維,我們很難直觀去找出一組基平面來完成對數據的降維,此時PCA就有其用武之地了。先直接上一張PCA分解後的圖來幫助大家理解。 如圖可見,綠色線爲第一主成成分方向,黑色線爲第二主成成分方向。仔細觀察一下圖,大家是否能得出如下倆個結論: (1) 樣本點在綠色線上的投影其離散程度要大於其在黑色線上的投影程度。(2) 樣本點到綠色線的平均距離都要小於其到黑色線的距離。 (2) 樣本點到綠色線的平均距離都要小於其到黑色線的距離。 兩個結論歸納爲最大可分析性和最近重構性。其中最大可分性可以理解爲我們希望降維過後的數據不影響後續我們對其的分類處理,其數據特徵的差異性仍然足夠強,也即方差最大;最近重構性可以理解爲我們希望降維過後的數據仍然保留有其主要的特徵,也即數據樣本點到這個超平面的距離和最小。 最大可分性理論的目標函數就是最大化數據在主軸上的投影的方差。假設現有一組已去中心化的數據 X 投影后的方差就是協方差矩陣的特徵值,而我們想要的最大方差,顯然就是協方差矩陣最大的特徵值,最佳投影方向就是最大特徵值所對應的特徵向量。 PCA降維的流程,如下: (1)樣本去中心化 (2)計算樣本的協方差矩陣 (3)對協方差矩陣做特徵值分解 (4)取最大的 個特徵值所對應的特徵向量 (5)計算投影矩陣 2.1 LDA基本概念理解 LDA(Linear Discriminant Analysis),中文名爲“線性判別分析”,是目前數據挖掘領域中比較經典且熱門的一種有監督的算法。從降維的層面考慮,其也是在尋找一個投影矩陣,使得投影之後數據樣本,同類的接近,而不同類的遠離。(其作爲分類器的時候,就可以對新的數據也進行投影,依據與哪一個類別接近來確定類別)。 仔細觀察投影後的結果,不難發現,LDA的中心思想就是最大化類間距離以及最小化類內距離。 LDA用於降維的流程,歸納如下, (1)計算每個類別的均值 ,全局樣本均值 (2)計算類內散度矩陣 ,全局散度矩陣 ,類間散度矩陣 (3)對矩陣 做特徵值分解 (4)取最大的 個特徵值所對應的特徵向量 (5)計算投影矩陣 PCA和LDA的相同點和不同點: LDA用於降維,和PCA有很多相同,也有很多不同的地方,因此值得好好的比較一下兩者的降維異同點。 首先我們看看相同點: 1)兩者均可以對數據進行降維。 2)兩者在降維時均使用了矩陣特徵分解的思想。 3)兩者都假設數據符合高斯分佈。 我們接著看看不同點: 1)LDA是有監督的降維方法,而PCA是無監督的降維方法 2)LDA降維最多降到類別數k-1的維數,而PCA沒有這個限制。 3)LDA除了可以用於降維,還可以用於分類。 4)LDA選擇分類性能最好的投影方向,而PCA選擇樣本點投影具有最大方差的方向。