当前位置 - 股票行情交易網 - 股票交易 - 數學建模筆記——評價類模型之熵權法

數學建模筆記——評價類模型之熵權法

嗯,這次講壹講熵權法,壹種通過樣本數據確定評價指標權重的方法。

之前我們提到了TOPSIS方法,用來處理有數據的評價類模型。TOPSIS方法還蠻簡單的,大概就三步。

對於上述 和 的計算,我們往往使用的是標準化數據後,待評價方案與理想最優最劣方案的歐氏距離,也就是 , 。這樣的計算方式其實隱藏了壹個前提,就是我們默認所有指標對最終打分的重要程度是相同的,也就是他們的權重相同。

賦予評價指標不同的權重,更符合實際建模情況,也更具有解釋性。確定權重的方法我們也提到過多次了,上網查找別的研究報告,發問卷做調查,找專家賦權等等。我們了解的比較深入又顯得有逼格的確定權重的方法,就是層次分析法了。但層次分析法的缺點也很明顯,即主觀性太強,判斷矩陣基本上是由個人進行填寫,往往最適用於沒有數據的情況。

當我們具有數據時,能否直接從數據入手,確定權重呢?

例如上面的題目,常識很難幫助我們確定影響水質最重要的因素是哪壹個,也很難告訴我們其余指標的重要程度如何衡量。倘若沒有查到相關資料,那我們真的只能完全主觀賦權了。這裏也只有四個指標,萬壹來了十個二十個,單是主觀賦權就比較麻煩了……

說了這麽多,就可以引出壹種完全由數據出發,且具有壹定逼格的確定權重的方法啦,也就是熵權法。其實聽了上面這句話,就應該意識到熵權法的不足之處:只從數據出發,不考慮問題的實際背景,確定權重時就可能出現與常識相悖的情況。以至於評分的時候,也會出現問題。當然啦,我們完全可以靈活壹點。熵權法還是有它的優勢的,而且逼格比較高……當然我也不曉得評委老師們喜不喜歡這個方法,這裏只是介紹,是否采用全看個人啦~

熵——壹個系統內在的混亂程度。聽起來就很厲害是不是?還有壹個著名的“熵增定律”,相信大家或多或少都有所耳聞。雖然是個熱力學定律,但其實包含了某種哲學道理:壹切事物都是從有序趨向無序。那為什麽這個確定權重的方法叫熵權法呢?畢竟數據都是完全給定的了,不會再有所謂向無序的轉變了。

具體的我也不曉得,簡單講下我的看法。現代科學除了用熵,還用“信息”來表達系統的有序程度。如果壹個系統包含某種確定的結構,就具有著壹定的信息,這種信息稱之為“結構信息”。結構信息越大,系統就越有序。這麽說可能比較玄學,舉個簡單的例子。

妳看海邊的沙子,如果僅是隨著自然狀態自由分布,基本沒有什麽信息可言,系統完全是混亂而無序的。

如果堆出了壹個沙堡,事情就不壹樣了。沙子有了壹定的結構,這部分沙子組成的系統相對變得有序,我們也可以從中看到壹定的信息。這樣的信息越多,沙堡也就越發精確,系統也就更加有序。應該可以理解的吧~

當然啦,不理解也沒關系,我就隨便說說。熵權法的原理是:指標的變異程度越小,所反映的現有信息量也越少,其對應的權值也越低。也就是說,熵權法是使用指標內部所包含的信息量,來確定該指標在所有指標之中的地位。由於熵衡量著系統的混亂程度,也可以拿來衡量信息的多少,方法被命名為熵權法倒也可以理解。(不過都是我猜的……)

ok,那我們如何去度量信息量的大小呢?我們可以用事件發生的概率去度量信息量。舉個例子,如果小明同學的成績壹直是全校第壹,小張同學的成績壹直是全校倒數第壹,它們兩個同時考取了清華大學。妳覺得是“小明考上清華”這壹事件的信息量比較大,還是“小張考上清華”這壹事件的信息量比較大。很明顯,“小張考上清華”這壹事件中可能包含著更多的信息量。因為小明壹直是全校第壹,考上清華應該是壹件自然而然的事情,大家都這麽覺得。而小張壹直是倒數第壹,突然考上了清華,壹件本來不可能發生的事情發生了,這裏面就蘊含著許多的信息。

不過這裏有個小問題,上述例子所說的信息,和熵權法原理中提到的現有信息,是不是同壹類型的信息呢?

不管怎樣,我們可以得出壹個簡單的結論,越有可能發生的事情,信息量越小,越不可能發生的事情,信息量越多。而我們使用概率衡量事件發生的可能性,因此也可以使用概率,衡量事件包含的信息量的大小。

如果把信息量用字母 表示,概率用 表示,那我們可以畫出壹個大致的函數關系圖。

可以發現,信息量隨著概率的增大而減小,且概率處於0-1之間,而信息量處在0-正無窮之間。於是,我們可以用對數函數關系來表達概率與信息量的關系。

假設 是事件 可能發生的某種情況, 表示這種情況發生的概率,我們定義 ,用來衡量 所包含的信息量。對數函數的定義域是 ,而概率的範圍是 ,但是我們壹般不考慮概率為0的事件。因此使用對數函數並無定義域方面的不妥。

如果事件 可能發生的情況有 ,那我們可以定義事件 的信息熵為 。我們可以看出,信息熵就是對信息量的期望值。當 時, 取最大值為 。

那信息熵越大,現有信息量到底是越大還是越小呢?上面我們說,信息熵是對信息的期望值,那應該是信息熵越大,現有信息量越大吧。其實不然,因為這裏的信息的期望值,應該是對未來潛在信息的壹種期望。我們說小概率事件包含的信息量多,是因為壹件幾乎不可能發生的事件發生了,背後很大程度上有著許許多多未被挖掘的信息,最終導致了小概率事件的發生。我們說壹件大概率事件包含的信息量少,其實也是指這件大概率事件發生後,能夠被挖掘出的信息量比較少。

上面未被挖掘的信息量,全部都是事件未發生前的潛在信息量,並不是現有信息量。當我們已經掌握了足夠多的信息,某些事件的發生就是壹件自然而然的事情,我們便可以認為這類事件屬於大概率事件。當我們掌握的現有信息較少時,我們很難認為某些事自然狀態下會發生,就覺得這類事件是小概率事件。覺得“年級第壹考上清華”很正常,因為我們對他的考試實力已經有了足夠的了解;而“倒數第壹考上清華”,很可能是因為我們沒有了解到壹個重要信息,例如“倒數第壹是故意考倒數第壹的”……

嗯,以上是我的想法,也就是對應著“信息熵越大,現有信息量越小”的結論。上面的例子可能還有壹些邏輯問題,僅供參考。但是要說明的意思應該是比較明了的。隨機變量的信息熵越大,目前已有的信息量就越小。而我們的熵權法,其實是基於已有的信息量確定權重的。

ok,鋪墊完畢,接下來就是熵權法的計算步驟了。

1.對於輸入矩陣,先進行正向化和標準化(忘記了就去看評價類模型第二篇文章)。

如果正向化之後所有數據均為正數,對於矩陣

如果正向化之後的矩陣存在負數,我們可以使用 進行標準化。總而言之,需保證標準化後的數據皆為正數。

2.計算第 項指標下第 個樣本所占的比重,並將其看作信息熵計算中用到的概率。

是上述經過標準化的非負矩陣,我們由 計算概率矩陣 。 中每壹個元素 。嗯,不要問我為什麽要用這種方法確定概率,我也不是很曉得,感興趣自行查閱吧。查到了可以給我留言告訴我嗎?

3.計算每個指標的信息熵,並計算信息效用值,歸壹化之後得到每個指標的熵權。

對於第 個指標而言,其信息熵計算公式為 。上文中我們提到過, 的最大值為 ,所以我們計算 時,除以壹個常數 ,可以使 的範圍落在 之間。

上文中也提到了,信息熵越大,已有的信息量就越小。如果 ,信息熵達到最大,此時 必須全部相同,也就是 全部相同。如果某個指標對於所有的方案都具有相同的值,那這個指標在評價時幾乎不起作用。例如所有的評價對象都是男生,那評價時就不需要考慮性別因素。這也再次告訴我們,在熵權法的框架中,信息熵越大,已有信息量越小。

因此我們定義信息效用值 ,則信息效用值越大,已有信息量越多。之後我們將信息效用值進行歸壹化處理,就可以得到每個指標的熵權 。

以上就是用熵權法計算指標權重的全過程了,其實也不是很難。本質上就是“給包含現有信息量更多的指標以更高的權重”。之後就可以按照這個權重,計算TOPSIS中的優劣距離,甚至可以直接加權打分。

事實上,所謂的已有信息量的大小,其實也可以看成指標數據標準差的大小。所有研究對象在某壹指標的數據完全壹樣時,標準差為0,信息熵最大。如果我們進行蒙特卡洛模擬,可以發現信息熵與標準差基本成負相關關系,也就是說標準差與已有信息量基本成正相關關系。標準差越大,數據波動越大,已有信息量也就越大,我們給它的權重也越大。某種意義上就這麽回事。

清風老師提出了壹個有意思的問題。在評選三好學生時,如果X是嚴重違紀上檔案的次數,Y是被口頭批評的次數,哪壹個指標對三好學生評選的影響更大?很明顯,實際生活中,壹旦嚴重違紀記入檔案,基本就不可能再成為三好學生。但絕大多數人這壹指標的值都是0,只有很少數人是1或者2。它的波動很小,按熵權法賦權時的權重就很小。但如果真這麽做了,可能某個人即使嚴重違紀了,依然有可能被評為三好學生。這是與實際不符合的。

這個例子告訴我們,熵權法的局限性在於,它僅憑數據的波動程度,或者說所謂的信息量來獲得權重,不考慮數據的實際意義,很可能得出違背常識的結果。

清風老師之前覺得,這個方法是忽悠新手的,因為只要方差大,就認為權重大,顯得很沒有道理。甚至還不如我們用層次分析法給出壹個主觀的賦權,或者在網上查資料等等。除此之外,第壹步中標準化的方法不壹樣,最後的結果也可能不太壹樣,這也是壹個問題。

但其實有些問題也是可以解決的。例如上面的嚴重違紀的問題,完全可以把嚴重違紀的樣本剔除掉,對剩余的樣本進行排序。以及,對於現實生活中影響非常大的指標,也可以進行提前的賦權,剩下的指標再用熵權法去分余下的權重。

如果對評價指標具有現實性的了解,那完全可以看看熵權法的結果是否符合實際,再決定是否采用。如果對評價指標了解較少,層次分析法顯得很隨意,網上也搜不到相應的結論,那使用熵權法也是壹件無可厚非的事情。

至於用指標內數據的波動程度來衡量指標的重要程度,到底有沒有道理。這個也是見仁見智的事情。我個人覺得還是有壹定的道理的。在標準化消除量綱的影響之後,某個指標包含的數據波動程度越大,壹定意義上表明該指標對最後的結果,會有壹個比較大的影響。因為它取值範圍廣嘛。TOPSIS中的理想最優解和理想最劣解,就是分別取各指標的最優值和最劣值。而波動程度大的指標在計算某個方案和理想方案的距離時,很顯然會有較大影響,給它更高的權重,也不是完全沒有道理。當然啦,這種方法還是需要排除特殊情況的,壹般情況下我覺得問題不大。

(上面就是隨便扯扯,別太當真。)

我覺得,只要熵權法最後的結果,沒有違反普遍的常識,用壹用也沒有太大的問題。清風老師也說了,如果只用來比賽,熵權法就盡管用,這個方法總比自己隨便定義的要好點兒吧(壹般情況下)。

嗯,以上就是我想說的關於熵權法的全部東西啦。如果還想進壹步了解,請自行查閱啦。

拜拜~