關於 Information Gain 和 Gini Index的問題
嗨,想請教一下 d41 中的內容。
不知道我理解有沒有錯,Information gain 應該是基於 information entropy 上的一個方法,利用 entropy 的變化來得到 Information gain,再來做初選擇。
而用 Gini index 來做選擇的話,和 Information gain 是否為概念相同,但不是同類的方法?我們同樣透過計算 Gini index 的變化來做選擇,但和 Information gain 有意義上和結果上的不同。
因為講義中的 Information gain 中的圖是 gini index 的示例,所以才有這個疑問。
謝謝~
回答列表
-
2019/07/21 上午 02:05Jimmy贊同數:1不贊同數:0留言數:0
Hi 鎮宇!
好問題。Information gain (資訊增益) 其實比較像是一個概念,透過衡量資訊增加的多寡來決定這個特徵的好壞,因此接下來就是要用甚麼方法來衡量資訊增益,而計算 gini-index 就是其中的一種方法,另外還可以用 entropy 的方式來衡量,所以你才會在 sklearn 中的 decision tree 看到可以挑選不同的 criterion 來衡量你的 information gain
-
2019/07/22 上午 10:33張維元 (WeiYuan)贊同數:1不贊同數:0留言數:0
Decision trees 是一種利用「資料特徵的可分性」做思考的模型,其概念是每次選擇分的效果最佳的特徵條件作為切割依據。
其中「分的效果最佳」就是這個算法中比較依賴的計算條件,主要有幾種方法:
* Information Gain(概念類似Entropy),有 ID3、C4.5、C5.0 幾種不同的公式
* Gini Index
根據你的問題,Information gain 跟 gini index 是兩種用於定義「哪個特徵分得好」的算法
-
2019/07/23 下午 10:23蔡鎮宇贊同數:0不贊同數:0留言數:0
感謝兩位的回答!