Day 6 怎麼理解 ECDF?
2019/04/26 上午 00:13
機器學習共學討論版
呂柏甫
觀看數:972
回答數:1
收藏數:0
ml100-2
ecdf
ml100-2-d06
我上網查了ECDF的繪製方式,以及這個圖的上的數值代表的關係,結果多半查到這種說明:
累積分佈函數是X軸單調遞增函數。
累積分佈函數更加平滑,圖像中噪音更小。
累積分佈函數沒有引入帶寬等外部概念,因此不會丟失任何數據信息。
對於給定的數據集,累積分佈函數是唯一的。
累積分佈函數一般都經過歸一化處理,單調遞增且趨近於1。
看到這些名詞,感覺跟統計學有點相關,好比說:更「平滑」有什麼含意嗎?「帶寬」是什麼呢?
想請問老師們這個部分有需要搞懂它們的含義嗎?在Google上胡亂搜索,找不到系統的方式理解這些東西,但又不知道哪個部分是可以先跳過的,先用程式畫得出圖就好嗎?
為此在 Day6 卡好久了!關於 ECDF 的判讀與理解,希望能得到一些指點,謝謝!
回答列表
-
2019/04/29 上午 11:54張維元 (WeiYuan)贊同數:2不贊同數:0留言數:0
嗨,這邊可以先比較兩種圖:
- 機率密度函數(Probability Density Function, PDF)
- 累積分佈函數(Cumulative Distribution Function CDF)
簡單來說,PDF 是記錄每個值所佔的比例,CDF 就是把 PDF 累加起來的結果。因此 CDF 更可以看出數值間影響關係,例如增加幅度。CDF 是理論值,實際上根據資料畫出來的 CDF 稱為 ECDF。
Reference:
1. https://emredjan.github.io/blog/2017/07/19/plotting-distributions/
2. https://stats.stackexchange.com/questions/239937/empirical-cdf-vs-cdf