logo
Loading...

資料處理與特徵工程 - 精選影片3 - 探索性資料分析(EDA) - 資料處理與特徵工程 - Cupoy

EDA 有許多觀看資料分布的方法,包含: 1. 確認遺失值(missing data、NaN)的數量-通常有可能是人為失誤、機器紀錄有問題才會導致沒有資料的情況 2. 每個欄位是否有很多「零」,如...

EDA 有許多觀看資料分布的方法,包含: 1. 確認遺失值(missing data、NaN)的數量-通常有可能是人為失誤、機器紀錄有問題才會導致沒有資料的情況 2. 每個欄位是否有很多「零」,如有太多零則該欄位對結果的鑑別能力會很低 3. 計算些統計量,像是平均數、標準差、最大值或最小值,可知道每個欄位的資料分布與特性 4. 箱型圖:由最小值、第一分位數、中位數、第三分位數與最大值所組成,可呈現出某個欄位資料的集中趨勢與離群值數量 5. 直方圖:可看出某個欄位資料的分布狀況,諸如大部分數值都趨向數值小的分布等。