關於連續型數值進行"normalization"-多峰分佈與中央極限定裡之間的關係
除了處理離散型數值可以用one-hot 最近看到關於處理連續型數值的normalization方法叫做:GMM 高斯混合模型(Gaussian Mixed Model)https://chih-sheng-huang821.medium.com/%E6%A9%9F%E5%99%A8%E5%AD%B8%E7%BF%92-em-%E6%BC%94%E7%AE%97%E6%B3%95-expectation-maximization-algorithm-em-%E9%AB%98%E6%96%AF%E6%B7%B7%E5%90%88%E6%A8%A1%E5%9E%8B-gaussian-mixture-model-gmm-%E5%92%8Cgmm-em%E8%A9%B3%E7%B4%B0%E6%8E%A8%E5%B0%8E-c6f634410483 裡面有講到關於雙峰/多峰的概念 -------------------------------------------------------- 多峰的情況可能發生在(1)單一特徵或是 (2)兩個特徵的常態分佈mix起來 狀況(1)比如... 1. 早上時間釣魚的人很多(陰涼),中午下午釣魚很少,傍晚釣魚的很多(陰涼) 呈現雙峰 2. 女生身高可能155-165的超級多(平均值差不多160),160-170很少 男生身高可能155-165超少, 165-178超多(平均大概173),178-190很少 呈現雙峰 這樣的單一特徵就是多峰的情況 --------------------------------------------------------- 中央極限定理:不論母群體之機率分配為何種型式,由同一母體抽出 n 個獨立變量,當 n 夠大時,其樣本平均數的抽樣分配會近似常態分配。 https://medium.com/qiubingcheng/%E4%B8%AD%E5%A4%AE%E6%A5%B5%E9%99%90%E5%AE%9A%E7%90%86-central-limit-theorem-clt-c5e47d091865 ---------------------------------------------------------- 以下是我的主要問題, 我想請問 (1) 如果以中央極限定理來說,是不是這種多峰特徵,樣本數量非常大後就一定會變成單峰型的常態分佈? http://www.statistics4u.info/fundstat_eng/cc_central_limit.html https://statistical-engineering.com/clt-summary/clt-bimodal-distribution/ (2) 如果本來母體樣本數是n=5000, 已經呈現多峰分佈 (2-1)那這個時候, 隨機抽出 2000 個獨立變量, 還是呈現多峰分佈嘛? (2-2)再收集樣本到n=10000, 是否可以變成常態分佈
回答列表
-
2021/05/18 上午 02:44Tim贊同數:2不贊同數:0留言數:2
同學你好: 依照中央極限定理,無論母體來自何種分配,當樣本數夠大時,**樣本平均**的抽樣分配才會趨近常態唷,而樣本自身的分配是取決於母體的分配型式,不一定是常態。 (1) 若已知母體為呈現多峰的分布,在單特徵&樣本數大的情況下,**樣本的平均**的確會近似單峰的常態分布;多特徵概念相同,樣本大時,樣本在每個特徵下的**平均**也會近似常態分配。舉個例子,假設抽了300位同學,並紀錄下同學的身高和年齡(兩個特徵),無論母體身高或年齡這兩個特徵是否為多峰的分配,樣本中身高的**平均**和年齡的**平均**各自都會接近常態的抽樣分配。 (2-1) 如果單純考慮樣本自身的分配,仍會呈現多峰分布唷,但以兩千筆的樣本數來說已經是大樣本,所以**樣本平均**會非常近似常態分布 (2-2) 樣本抽到10000筆時,論樣本本身的分布,仍會是多峰的分配(母體為多峰),相同地,樣本的**平均**依然近似常態分配 以上提到的常態分佈都是指廣義的單峰常態哦,不知道有沒有回答道你的問題