当前位置 - 股票行情交易網 - 國際漫評 - 如何利用用戶標簽數據

如何利用用戶標簽數據

推薦系統的目的是聯系用戶的興趣和物品,這種聯系需要依賴於不同的媒介。GroupLens在文章1中認為目前流行的推薦系統基本上通過三種方式來聯系用戶興趣和物品。如圖1所示,第壹種方式是通過用戶喜歡過的物品:可以給用戶推薦與他喜歡過的物品相似的物品,這就是前面提到的基於物品的算法(item-based)。第二種方式是通過和用戶興趣相似的其他用戶:可以給用戶推薦那些和他們興趣愛好相似的其他用戶喜歡的物品,這也是前面提到的基於用戶的算法(user-based)。除了這兩種方法,第三個也是最重要的方式是通過壹些特征(feature)來聯系用戶和物品,可以給用戶推薦那些具有用戶喜歡的特征的物品。這裏的特征有不同的表現方式,比如可以表現為物品的屬性集合(比如對於圖書,屬性集合就包括了作者、出版社、主題和關鍵詞等),也可以表現為隱語義向量(latent factor vector),這可以通過前面提出的隱語義模型(Latent Factor Model)學習得到。在本章中,我們將討論壹種重要的特征表現方式:標簽。

圖1 推薦系統聯系用戶和物品的幾種途徑

根據維基百科的定義2,標簽是壹種無層次化結構的、用來描述信息的關鍵詞。因此,標簽可以用來準確地描述物品的語義。根據給物品打標簽的人的不同,標簽應用壹般分為兩種。第壹種是讓作者或者編輯給物品打標簽,而另壹種是讓普通用戶給物品打標簽,也就是UGC的標簽應用。表1列出了這兩種不同的標簽系統的代表網站。在本章中,我們主要討論UGC的標簽應用,研究用戶給物品打標簽的行為,以及如何通過分析這種行為給用戶進行個性化推薦。

表1 兩種不同的標簽系統的代表網站

UGC的標簽系統是壹種很重要的表示用戶興趣和物品語義的方式。當壹個用戶對壹個物品打上壹個標簽後,這個標簽壹方面描述了用戶的興趣,另壹方面也表示了物品的語義,從而將用戶和物品聯系了起來。

UGC標簽系統的代表應用

UGC標簽系統是很多Web 2.0網站的必要組成部分,本節將討論使用UGC標簽系統的代表網站:UGC標簽系統的鼻祖美味書簽(Delicious)、論文書簽網站CiteULike、音樂網站Lastfm、視頻網站Hulu、書和電影評論網站豆瓣等。下面將分別介紹這些應用。

Delicious

美味書簽(Delicous)是標簽系統裏的開山鼻祖了,它允許用戶給互聯網上的每個網頁打上標簽,從而通過標簽的方式重新組織整個互聯網。圖2是Delicious中被用戶打上recommender system標簽最多的網頁,這些網頁反應了用戶心目中和推薦系統最相關的網頁。圖3是Delicious中“豆瓣電臺”這個網頁被用戶打的最多的標簽,可以看到這些標簽確實準確地描述了豆瓣電臺。

圖2 Delicious中被打上recommender system標簽的網頁

圖3 Delicious中“豆瓣電臺”網頁被用戶打的最多的標簽

CiteULike

CiteULike是壹個著名的論文書簽網站,它允許研究人員提交或者收藏他們感興趣的論文,給論文打標簽,從而幫助用戶更好地發現和自己研究領域相關的優秀論文。我們知道,研究人員搜索自己研究領域值得參考的論文是很費時費力的工作,而CiteULike通過群體智能,讓每個研究人員對自己了解的論文進行標記,從而幫助用戶更好更快地發現自己感興趣的論文。圖4展示了CiteULike中壹篇被用戶打的標簽最多的有關推薦系統評測的文章,可以發現,最多的兩個標簽是collaborative-filtering(協同過濾)和evaluate(評測),確實比較準確地反應了這篇論文的主要內容。

圖4 CiteULike中壹篇論文的標簽

Lastfm

Lastfm是壹家著名的音樂網站,它通過分析用戶的聽歌行為來預測用戶對音樂的興趣,從而給用戶推薦個性化的音樂。作為多媒體,音樂不像文本那樣可以很容易地分析它的內容信息。為了在不進行復雜的音頻分析的情況下獲得音樂的內容信息,Lastfm引用了標簽系統,讓用戶用標簽標記音樂和歌手。圖5展示了披頭士樂隊在Lastfm中的標簽雲(tag cloud)。從這個標簽雲可以看到,披頭士應該是壹個英國的傳統搖滾樂隊,流行於上世紀60年代。

圖5 Lastfm中披頭士樂隊的標簽雲

豆瓣

豆瓣是中國著名的評論和社交網站,同時也是中國個性化推薦鄰域的領軍企業之壹。豆瓣在個性化推薦領域進行了廣泛的嘗試,標簽系統也是他們嘗試的領域之壹。他們允許用戶對圖書和電影進行標簽,從而獲得圖書和電影的內容信息,並用這種信息來改善他們的推薦效果。圖7展示了《數據挖掘導論》在豆瓣被用戶標記的情況。如圖7所示,最多的幾個標簽分別是:數據挖掘、計算機、計算機科學、數據分析、IT數據分析。這些標簽準確地反應了這本書的內容信息。

圖6 豆瓣讀書中《數據挖掘導論》壹書的常用標簽

Hulu

Hulu是美國著名的視頻網站。視頻作為壹種最為復雜的多媒體,獲取它的內容信息是最困難的,因此,Hulu也引入了用戶標簽系統來讓用戶對電視劇和電影進行標記。圖7展示了美劇《豪斯醫生》的常用標簽,可以看到,Hulu對標簽做了分類,並展示了每壹類最熱門的標簽。從類型(genre)看,豪斯醫生是壹部醫學片(medical drama);從時間看,這部劇開始於2004年;從人物看,這部美劇的主演是hugh laurie,他在劇中飾演的人物是greg house。

圖7 Hulu中《豪斯醫生》的常用標簽

從前面的各種應用可以看到,標簽系統在各種各樣的網站中(音樂、視頻和社交等)都得到了廣泛的應用。標簽系統的最大優勢在於可以發揮群體的智能,獲得物品內容信息的比較準確的關鍵詞描述,而準確的內容信息是提升個性化推薦系統的重要資源。

標簽系統中的推薦問題

標簽行為作為壹種重要的用戶行為,蘊含了很多反映用戶興趣的信息,因此深入研究用戶的標簽行為可以很好地指導個性化推薦系統提升自己的推薦質量。同時,標簽作為壹種重要的內容表示方式,比傳統的內容屬性表示更能反應用戶對物品的看法,並且表示形式非常簡單,便於很多算法處理。

標簽系統中的推薦問題主要有以下兩個。

如何利用用戶的標簽行為給用戶推薦物品(tag-based recommendation)?

如何在用戶給物品打標簽時給用戶推薦適合於該物品的標簽(tag recommendation)?

為了研究上面的兩個問題,我們首先需要解答下面三個問題。

用戶為什麽要打標簽(Why)?

用戶怎麽打標簽(How)?

用戶打什麽樣的標簽(What)?

用戶為什麽要標註

在設計基於Tag的個性化推薦系統之前,我們需要深入了解用戶的標註行為,知道用戶為什麽要標註,用戶怎麽標註,只有深刻地了解用戶的行為,我們才能基於這個行為給用戶設計出令他們滿意的個性化推薦系統。

Morgan Ames研究圖片分享網站中用戶標註的動機問題3,他將用戶標註的動機分解成兩個維度。首先是社會維度,有些用戶標註是為了給內容的上傳者使用的,而有些用戶標註是為了給廣大用戶使用的。令壹個維度是功能維度,有些標註是為了更好地組織內容,方便用戶將來的查找,而另壹些標註是為了傳達某種信息,比如照片的拍攝時間和地點等。

用戶如何打標簽

在互聯網中,盡管每個用戶的行為看起來是隨機的,但其實這些表面隨機的行為的背後蘊含著很多規律。在這壹節中,我們通過研究美味書簽的數據集,來發現用戶標註行為中的壹些統計規律。

德國的研究人員公布過壹個很龐大的美味書簽的數據集4,該數據集包含了2003年9月到2007年12月美味書簽用戶4.2億條標簽行為記錄。本節選用該數據集2007年壹整年的數據進行分析,對該數據集的統計特性進行研究。

本節將統計數據集的以下信息。

用戶活躍度的分布。

物品流行度的分布。

標簽熱門度的分布。

用戶標簽行為隨時間演化的曲線。

用戶相隔壹段時間興趣變化的情況。

物品的生命周期。

*[****具體統計結果待書正式出版時公布**]*

用戶打什麽樣的標簽

用戶在看到壹個物品時,我們最希望他打的標簽是能夠準確描述物品內容屬性的關鍵詞。但用戶往往不是按照我們的想法去操作,而是可能會給物品打上各種各樣奇怪的標簽。

Scott A. Golder 總結了美味書簽上的標簽,將它們分為如下的幾類。

表明物品是什麽:比如是壹只鳥,就會有“鳥”這個詞的標簽;是豆瓣的首頁,就有壹個標簽叫“豆瓣”;是喬布斯的首頁,就會有個標簽叫“喬布斯”。

表明物品的種類:比如在美味書簽中,表示壹個網頁的類別的標簽包括 article(文章)、 blog(博客)、 book(圖書)等。

表明誰擁有物品 :比如很多博客的標簽中會包括博客的作者等信息。

表達用戶的觀點:比如用戶認為網頁很有趣,就會有funny(有趣)的標簽,認為很無聊,就會打上boring(無聊)的標簽。

用戶相關的標簽:有些標簽,比如 my favorite(我最喜歡的)、my comment(我的評論)等。

用戶的任務:比如 to read(即將閱讀)、 job search(找工作)等。

很多不同的網站也設計了自己的標簽分類系統,比如Hulu對視頻的標簽就做了分類。

圖8是著名的美劇《豪斯醫生》的標簽。可以看到,Hulu將電視劇的標簽分成了幾類。

類型(Genre):主要表示這個電視劇的類別,比如《豪斯醫生》是屬於醫學劇情片(medical drama),同時有喜劇(comedy)、懸疑(mystery)的成分。

時間(Time):主要包括電視劇發布的時間,有時也包括電視劇中事件發生的時間,比如是二戰期間,或者是上世紀90年代。

人物(People):主要包括電視劇的導演、演員和劇中重要人物等。

地點(Place):劇情發生的地點,或者是視頻拍攝的地點等。

語言(Language):這部電視劇使用的語言。

獎項(Awards):這部電視劇獲得的相關獎項。

其他(Details):包含了不能歸類到上面各類的其他所有標簽。

圖8 著名美劇《豪斯醫生》在視頻網站Hulu上的