信息增益越大越好還是越小越好
信息增益越大越好。
信息增益越大,表示信息的不確定度降低的越多,即信息的純度越高。在決策樹的ID3算法中,追求的是信息熵越小越好,信息增益越大越好。ID3中樣本分布越均勻,它的信息熵就越大,所以其原則就是樣本熵越小越好,也就是信息增益越大越好。
信息熵的意思就是壹個變量i(就是這裏的類別)可能的變化越多(只和值的種類多少以及發生概率有關,反而跟變量具體的取值沒有任何關系),它攜帶的信息量就越大(因為是相加累計),這裏就是類別變量i的信息熵越大。
系統越是有序,信息熵就越低;反之,壹個系統越亂,信息熵就越高。所以,信息熵也可以說是系統有序化程度的壹個衡量。
二分類問題中,當X的概率P(X)為0.5時,也就是表示變量的不確定性最大,此時的熵也達到最大值1。
信息增益:
評價壹個系統的特征t對系統的影響程度就要用到條件熵,即是特征t存在和不存在的條件下,系統的類別變量i的信息熵。特征t條件下的信息熵與原始信息熵的差值就是這個特征給系統帶來的信息增益。
信息增益最大的問題還在於它只能考察特征對整個系統的貢獻,而不能具體到某個類別上,這就使得它只適合用來做所謂“全局”的特征選擇(指所有的類都使用相同的特征集合),而無法做“本地”的特征選擇。
在概率論和信息論中,信息增益是非對稱的,用以度量兩種概率分布P和Q的差異。信息增益描述了當使用Q進行編碼時,再使用P進行編碼的差異。通常P代表樣本或觀察值的分布,也有可能是精確計算的理論分布。Q代表壹種理論,模型,描述或者對P的近似。