【QA】統計方法中,常見的相關係數有哪些?
在探討特徵之間相關性時,時常會用到許多相關係數以判斷相關程度,那常見的相關係數有哪些呢?
回答列表
-
2021/10/06 下午 08:28王健安贊同數:0不贊同數:0留言數:0
目前市面上常使用的相關係數包含以下幾種: 1. Pearson correlation coefficient 2. Spearsan correlation coefficient 3. xi correlation 4. Repeat measure correlation 接著詳細介紹以上相關係數的使用方法與時機。 Pearson's correlation coefficient 是探討兩個連續性特徵的線性相關性,數值範圍從-1至1,負號代表負相關,正號代表正相關,數值越高代表越具有線性相關性,缺點在判斷時容易有偏誤,因為 Pearson's correlation coefficient 低的特徵不見得是兩特徵真的不相關而導致,而可能是因為兩特徵呈現非線性相關性,因此需要多方指標加以驗證。Pearson's correlation coefficient 公式如下: $$$$ r = \frac{Cov_(xy)}{S_x * S_y} $$$$ Spearsan's correlation coefficient 是探討兩序列特徵(例如:排名與年齡層)之間的關係,但當連續型資料中有離群值,或想探討非線性的相關程度時,也適用於 Spearsan's correlation coefficient。公式如下: $$$$ \tau = 1-\frac{\sum_{i=1}^n d_i^2}{n(n^2-1)} $$$$ xi correlation 是2020年才被提出的相關係數,主要探討兩特徵之間可以「形成一個 function 」的程度,儘管兩特徵的線性相關性很高,但不見得可以建立一個 function 而導致,優點是不論兩變項的關係是線性、二次項、三次項或其他關係,都可以用 xi correlation做檢測。在python中,可以使用 xicor 套件計算 xi correlation。 Repeat measure correlation 是專門用在時間序列或長期追蹤資料分析使用的相關係數,主要想探討同一樣本中,兩特徵隨時間變化的線性相關性,以探索出兩特徵是否因為隨時間變化有一致性。在python中,可以善用 pingouin 套件操作此相關係數。 - 參考答案來源: - [ ] 臨床研究迴歸分析的應用 https://hualien.tzuchi.com.tw/epi-stat/images/class/2019/Final_20190510.pdf - [ ] Pearson Product-Moment Correlation https://statistics.laerd.com/statistical-guides/pearson-correlation-coefficient-statistical-guide.php - [ ] Spearman's Rank-Order Correlation https://statistics.laerd.com/statistical-guides/spearmans-rank-order-correlation-statistical-guide.php - [ ] xi correlation method adapted for python https://github.com/czbiohub/xicor - [ ] Repeated Measures Correlation - NCBI https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5383908/