当前位置 - 股票行情交易網 - 裝修設計 - 社交網絡數據分析與應用

社交網絡數據分析與應用

社交網絡數據分析與應用

根據最近的壹份調查數據顯示,美國互聯網媒體的市值已達10890億美元,是傳統媒體的3倍,類似的在中國,根據艾瑞咨詢發布的2014年第二季度網絡經濟核心數據顯示,截止2014年6月30日,中國主要上市互聯網公司市值前五的為騰訊(1405.6億美元)、百度(654.5億美元)、京東(389.7億美元)、奇虎360(120.9億美元)、唯品會(111.9億美元)。與此同時,以Facebook,Twitter,微博,微信等為代表的社交網絡應用正蓬勃發展,開啟了互聯網時代的社交概念。據全球最大的社會化媒體傳播咨詢公司We Are Very Social Limited分析指出,目前社交類軟件使用的人數已達25億——占世界總人數約的35%,另據艾瑞咨詢發布的2014年第二季度社區交友數據顯示,2014年5月,社區交友類服務月度覆蓋人數達到4.7億,在總體網民中滲透率為92.5%;2014年5月社交服務在移動App端月度覆蓋人數為1.9億人,其中微博服務在移動端優勢較為明顯,月度覆蓋人數達到1.1億人;互聯網媒體和社交網絡是Web2.0時代兩個非常重要的應用,那麽壹個自然的問題是這兩個領域將會如何互動發展?本報告主要從數據分析(非財務、非戰略)的角度嘗試探討網絡結構會給互聯網媒體帶來什麽樣的機遇和挑戰。具體而言,我們根據自己的研究經驗只關註以下幾個方面:新聞、影音和搜索,根據艾瑞咨詢發布的2013網絡經濟核心數據顯示,這三部分的收入占到中國市值TOP20互聯網企業總市值的32.16%,其重要性不可忽視。我們通過具體的案例並結合理論前沿做探索性的研討。

壹、音樂推薦

根據《2013中國網絡音樂市場年度報告》顯示,2013年底,我國網絡音樂用戶規模達到4.5億。其中,手機音樂用戶人數由2012年的0.96億增長到2013年的2.91億,年增長率達203%。從網絡音樂用戶規模的飛躍式增長可以看到音樂流媒體服務蘊含著巨大的商機。在國外,科技巨頭爭奪音樂市場的野心也初露端倪,今年年初,蘋果斥資30億美元買下Beats Electronics,而谷歌也隨後收購了流媒體音樂服務提供商Songza。

音樂產業在新媒體時代占據重要地位。本報告主要關註移動互聯網環境下在線音樂服務商(酷狗音樂、QQ音樂、天天動聽等)的發展現狀並且對當前的音樂個性化推薦提出我們的壹些見解。

1.1 音樂推薦與社交網絡

根據國內知名研究機構CNIT-Research 8月份發布的《2014年第二季度中國手機音樂APP市場報告》的數據顯示,排名前三的手機音樂App為酷狗音樂、QQ音樂、天天動聽。他們所占的市場份額分別為:20.1%,17.0%以及15.8%。

酷狗音樂 QQ音樂 天天動聽

其中,酷狗音樂和天天動聽憑借在在線音樂領域長期積累的用戶資源、高品質音質、卓越的UI界面以及完美的下載體驗取勝。而QQ音樂主要依附強大的社交工具QQ應運而生,可謂是“社交音樂”領域的先驅者。從2014年第二季度手機音樂數據來看,QQ音樂增勢迅猛,連續三個月用戶下載量增速均超過行業增速水平,而酷狗音樂、天天動聽均增速低於市場行業增速,用戶市場份額有所下降。

根據速途研究院對手機音樂用戶願景的調查顯示,有58%的用戶希望增強個性化音樂推薦的功能,這說明有很多用戶在收聽音樂時其實並不清楚自己喜歡什麽類型的歌曲,如果音樂電臺能根據用戶的個人喜好“猜出”用戶喜歡什麽歌曲並為其進行推薦,那將會給用戶帶來意想不到的完美體驗。目前的很多音樂軟件都支持推薦這壹功能。以下是音樂App市場中常見的音樂產品的個性化推薦以及定制方式:

酷狗音樂 QQ音樂 天天動聽

根據研究,推薦模式主要分為以下幾種:(1) 熱點推薦,可以根據大眾的搜索記錄,通過排行榜的形式得到,也可以根據近期發生的音樂娛樂事件推薦,如中國好聲音、我是歌手等;(2)根據用戶的聽歌記錄推薦,包括用戶對每首歌的喜惡記錄;(3)根據地理位置信息結合用戶興趣進行推薦;(4)根據用戶喜歡的歌手信息進行推薦。但是,以上這些推薦模式都沒有能夠充分利用社交網絡的信息。在社交網絡風靡全球的時代,有越來越多的音樂服務商發現,社交網絡可以幫助商家留住更多的用戶,同時,充分利用社交網絡信息將帶來更加卓越完美的用戶體驗。可以看到,酷狗音樂和天天動聽都允許用戶使用第三方賬戶(微博、QQ)進行綁定登錄,並提供分享到微博、微信等選項;QQ音樂特設了“動態”專欄,用於顯示好友分享的音樂。另外,酷狗和QQ音樂都可以通過定位的方式推薦附近的誌趣相投的好友。

酷狗音樂 QQ音樂 天天動聽

上述事實說明,社交音樂存在巨大的潛力和價值。那麽,這壹方面有無突出的企業呢?其中英國的Last.fm和中國的QQ音樂可以算得上是這方面的壹個代表。

Last.fm QQ音樂

Last.fm是 Audioscrobbler 音樂引擎設計團隊的旗艦產品,有遍布232個國家超過1500萬的活躍聽眾。2007年被CBS Interactive以2.8億美元價格收購,目前,Last.fm是全球最大的社交音樂平臺。QQ音樂是中國互聯網領域領先的網絡音樂平臺及正版數字音樂服務提供商,在中國手機音樂市場所占份額躋身四大巨頭(其他三個分別是酷狗、天天動聽、酷我),月活躍用戶已達到3億,是中國社交音樂領域的領軍人物。

以QQ音樂為例,我們詳細分析它在利用社交網絡信息進行個性化推薦的優勢與可能存在的不足。QQ音樂依附強大的社交工具QQ而生,長期以來受到廣大用戶的喜愛,這與QQ背後的億萬級用戶是無法割離的,可以說,QQ音樂是有先天的社交優勢的。用戶登錄QQ音樂後,可以看到動態欄中顯示的好友音樂動態,同時,它還允許用戶綁定自己的微博賬號,把音樂分享給微博好友。不僅如此,QQ音樂允許用戶自己編輯生成歌單,並分享給好友,這起到了壹定的自媒體的作用。在“明星部落”這壹功能中,QQ音樂允許粉絲之間交流互動,並形成壹定的社交規模。從上述總結中,我們已經可以看到,QQ音樂已經有意識的把社交信息融合到產品設計和運營中,以增加客戶粘性。但是從數據分析的基礎和推薦算法的構建上,是否真正做到有效利用社交網絡信息了呢?為此,使用QQ音樂於2012年全面更新升級的“猜妳喜歡”功能,並發現了如下問題:當筆者沒有任何聽歌記錄時,這壹模塊並不能為筆者推薦歌曲。根據提示內容,目前該功能可能主要依靠用戶的歷史聽歌記錄進行推薦。同樣的問題出現在QQ音樂館的推薦欄中:大部分初始推薦音樂來源於當下熱門音樂歌曲,缺少個性化成分。

QQ音樂:猜妳喜歡 QQ音樂館

以上事實說明音樂服務商在推薦算法上沒有充分利用社交網絡的信息。事實上,在獲得用戶個人綁定社交網絡賬號的基礎上,可以得到用戶的朋友關系,進壹步可以獲得用戶好友的聽歌記錄,這些歌曲可以成為初始推薦曲目的備選項,將這些備選項通過壹定規則(熱度、好友相似度)排序,可以用於音樂推薦;另外,眾所周知,社交網絡(如微博)是明星與粉絲互動的壹個重要渠道,因此,可以重點提取用戶對於社交網絡中歌手以及音樂人的關註關系,以獲得對用戶偏好的推測。以上這些過程可以用下圖表示。

可以看到,在以社交網絡綁定的音樂社區中,每個人並不是孤立的個體,而是通過好友關系,以及粉絲與明星的關註關系聯系起來。音樂活動的多元化為QQ音樂的推薦場景帶來了新的挑戰。我們認為存在以下幾個需要處理的問題:(1)如何高效利用好友的音樂信息對用戶進行推薦?用戶的好友眾多,每個好友會留下很多音樂記錄,這些信息綜合起來的話數量極其龐大,如何迅速整合朋友及其收聽記錄並按照優先程度排序對用戶進行推薦是提高用戶體驗的前提條件。(2)如何整合多種信息渠道進行推薦?隨著時間的推進,壹個音樂賬戶留下的信息是多元化的。例如,用戶主動搜索的音樂記錄、用戶對歷史收聽音樂記錄的反饋,用戶選擇的電臺種類、用戶自己總結生成的歌單、用戶對朋友分享音樂的反饋信息等。因此,如何對這些異質的信息來源進行有效整合,或者,在資源有限的情況下,如何判斷和篩選出對於提高推薦精度最有效的指標是提高音樂推薦效果的關鍵法寶。(3)如何整合當前音樂潮流趨勢與用戶個人興趣基因?音樂是充滿了潮流和娛樂性的產業,因此,用戶的音樂興趣不僅受其自身興趣基因驅使,也受到當前音樂流驅使的影響。因此,如何結合用戶個人興趣以及音樂潮流趨勢對用戶進行有效推薦,是對於音樂這壹特殊娛樂行業的特別要求。綜上我們認為QQ音樂雖然是利用社交關系進行音樂推薦的先驅者,但是在利用網絡數據的層面上仍有很大的改進和提升空間。

1.2 基於社交網絡的音樂推薦

在此我們給出如何利用網絡數據對用戶進行推薦的技術思想。由於音樂推薦場景實體的多元化,我們將常見的推薦場景列舉如下:推薦歌曲、推薦歌單、推薦電臺、推薦歌手、推薦用戶。接下來,我們將從音樂分類與結構化、用戶信息整合、網絡結構應用三個步驟詳細闡述我們的觀點。

音樂結構化與歸壹化

1.歌曲標簽化

首先,基於音樂的不同風格,我們需要對系統中存在的海量歌曲進行分類,通過打標簽的方式,使音頻信息通過文本的方式結構化。分類的方法多種多樣,標準各異,從幾個音樂主流網站的標簽組織形式看來,主要從客觀、主觀兩個角度進行分析。從客觀的角度講,音樂可以按照流派、地域、年代、演奏樂器等方式分類,如“流行”、“搖滾”、“鄉村音樂”、“90後”、“鋼琴曲”等等,且大類下面可以設小類,如“流行”下可以設置“華語流行”、“歐美流行”等小類;從主觀的角度講,音樂風格與聽歌時的心情、場景高度相關,如分為“甜蜜”、“安靜”、“治愈”、“酒吧”、“咖啡館”等等,這種標簽使得用戶在聽音樂時仿佛有壹種身臨其境的感覺,帶來更高的視聽享受。除此之外,標簽也可以由用戶自己生成,如用戶的熱搜關鍵詞記錄、用戶自行備註標簽等。這在壹定程度上正是利用自媒體的形式擴充標簽庫,使之更能反應用戶興趣。

2.歌手信息提取

除了可以將歌曲標簽化,我們還可以進壹步的對歌手信息進行提取。比如根據地域我們可以把歌手分為大陸、港臺、歐美等,根據年代可以分為60後、70後、80後歌手,根據他們的曲風可以分為搖滾、抒情、朋克等。通過打標簽的形式把歌手進行分類,從而形成結構化的數據格式,方便以後快速清晰的定位用戶喜歡哪壹類型的歌手。同樣的我們也可以對歌單、作詞者、作曲者進行標簽化處理,例如歌單的標簽可以模仿歌曲的形式,因為歌單是由歌曲組成,所以可以用歌曲的標簽來代表歌單的標簽。作詞者和作曲者的標簽可以參考歌手打標簽的方法,另外值得註意的是,由於音樂人之間形成合作、作曲、寫詞等合作關系,可以認為是壹個社交網絡關系,常常可以見到的現象是某些歌手與詞作者存在密切的合作關系,而這部分信息也可用於音樂的個性化推薦。例如,對於壹些有特定合作的歌手和詞(曲)作者,我們應該特別留意,比如周傑倫和方文山這對組合。

3.歌詞的語義分析

歌曲的重要組成部分就是歌詞,由於歌詞屬於文本,我們不可能直接對其打標簽,所以首先要進行的是語義分析,通過語義分析我們可以大概知道歌詞的內容,比如我們可以把歌詞切分成短語,然後對每壹個短語進行歸納總結,可以判斷短語的情感極性(如積極還是消極),對短語進行主題分類,由於歌詞數目龐大,可以利用自然語言處理的方式,如主題模型等預先提取主題,再通過人工加以校正。這樣就可以對歌詞進行標簽化處理了。下面我們以歌曲為例,簡要的說明具體標簽化過程。

通過標簽的形式我們可以對每個歌曲的主題予以分類和描述。用於描述壹支單曲的標簽數目越多,對於音樂主題的描述就更加清晰、明朗;但同時,冗余和重復的信息也可能越多,處理的難度就越大。因此,我們要對標簽進行排序和篩選,壹個比較簡單高效的辦法是選擇最熱門的N個標簽作為我們的目標詞庫,並且對該詞庫定期進行更新。具體來說,我們將所有標簽按照重要程度由高到低進行排序,選擇前p個標簽作為我們的標簽集合。給定壹首歌曲t,我們用壹個超高維向量Xt=(Xt1,…,Xtp)∈?p表示它的標簽信息,其中Xtj=1表示該歌曲含有第j個標簽,否則,該歌曲不含有第j個標簽。例如對於壹首鋼琴曲演奏的純音樂,對其打的標簽可能是:鋼琴曲、安靜、咖啡館等。設鋼琴曲、安靜、咖啡館分別對應於標號為1、3、5的標簽,那麽向量Xt可以表示為Xt=(1,0,1,0,1,0,…0) 。通過以上步驟,我們就可以把看似雜亂的音樂風格通過打標簽的形式進行結構化,用壹個只含0、1元素的超高維向量對每首歌曲進行分類。

對於歌單、電臺這些由歌曲集合而成的實體,我們也可以通過標簽的方式對其進行刻畫。例如,對於給定的壹個歌單m,我們同樣用壹個超高維向量