模式識別算法
關於LLE算法具體的理論部分妳可參考/people/xzj/introducelle.htm
Locally linear embedding (LLE),使用這種算法可以進行非線性降維,關鍵是其能夠使降維後的數據保持原有拓撲結構
先給出壹張下面算法得到的圖 ,圖中第壹幅
LLE算法可以歸結為三步:
(1)尋找每個樣本點的k個近鄰點;
(2)由每個樣本點的近鄰點計算出該樣本點的局部重建權值矩陣;
(3)由該樣本點的局部重建權值矩陣和其近鄰點計算出該樣本點的輸出值。
為原始數據,第三個為降維後的數據,可以看出處理後的低維數據保持了原有的拓撲結構。
另,本人對LLE算法不是很熟悉,在此介紹壹下其他降維算法的使用,以SVD算法為例。
電影推薦。
(1)假設現在有壹個用戶和電影評分的二維矩陣,矩陣內容是用戶對電影的評分,現有得知某個用戶對部分電影的評分,由此為該用戶推薦他可能喜歡的電影。
(2)假設用戶有100W,電影有100W部,那麽對於任意壹種推薦算法來說,這個數據量都很大,該問題無法在單機上進行運算解決;
(3)這100W維特征中必然存在壹些幾乎不重要的特征,這時,我們就需要用降維算法進行降維,降維的目的就是去掉大量的不重要的特征,以簡化運算;
(4)在此例中,可以使用SVD(或SVD++)算法對矩陣進行降維
圖片相似度
(1)通常,進行圖片相似度判斷首先會將圖片通過傅裏葉變換轉換成數值代表的矩陣,矩陣代表著該圖片,壹般來說矩陣維數越高越精確
? (2)同樣,維數過高的情況下,相似度計算成本很高,因此同樣需要降維,在圖片相似度識別中常用的降維算法是PCA算法;
總之,降維的目的就是減少特征的維數,減少運算的成本。
以上皆為我的拙見,如有疑義請指正。