EDA 有許多觀看資料分布的方法,包含:
1. 確認遺失值(missing data、NaN)的數量-通常有可能是人為失誤、機器紀錄有問題才會導致沒有資料的情況
2. 每個欄位是否有很多「零」,如有太多零則該欄位對結果的鑑別能力會很低
3. 計算些統計量,像是平均數、標準差、最大值或最小值,可知道每個欄位的資料分布與特性
4. 箱型圖:由最小值、第一分位數、中位數、第三分位數與最大值所組成,可呈現出某個欄位資料的集中趨勢與離群值數量
5. 直方圖:可看出某個欄位資料的分布狀況,諸如大部分數值都趨向數值小的分布等。