豆瓣圖書評分和推薦靠譜嗎? —— 壹點數據分析的視角
譬如《未來簡史》這本書籍,我之前看過這部書,覺得並不好看,對不起8.5的高分。看了goodreads,發現評分也只有3.69星 ,並不像豆瓣這樣高(圖壹),就國內外對此書評價差別還挺大的。
而且,在亞馬遜上還能看到截然相反的短評,有的人覺得這是“靠譜的未來預測”,有的卻說這本書籍"嘩眾取寵,沒有科學支撐" (圖二、圖三)
另壹方面,豆瓣上同樣8.5分的書籍,比如《九故事》,《悟空傳》,《慶余年》,我都覺得挺好看的,goodreads也都達到了4.15星的水平。於是就有疑問,豆瓣書籍的評分是否可靠?會不會存在壹些很多書籍的評分不中肯,影響的因素主要是哪些?針對此,我選取了部分不同年代,國內外不同出版社的不同書籍做了對比。
1. 數據概況
選取2001-2017, 國內出版 的書籍。限制豆瓣評分人數在2W以上,壹方面討論大家較為熟悉、主流的書籍,另壹方面也盡量減少水軍等的影響。總***997本。通過借助中信雲機器學習平臺,我們對其中書籍的評分做了比較和展示,其評分分布圖如下(圖四):
包含了很多我們耳熟能詳的書籍 ,比如圍城、肖申克的救贖、百年孤獨等等(下圖五)。
同時,我們通過應用中信雲機器學習平臺,對包含中信圖書出版社在內的其它出版社出版的小說書籍,做了方差和評級分布圖(如下圖六所示),我們可以看到,中信小說的評分方範圍在7分以上,STD差距主要分布在1.5-1.75之間,那讓我們來看分析壹下,到底評分的差異來自於什麽?
2.評分的差異
2.1 未來簡史VS時間簡史
以上兩本書(圖七)的評分為例,兩者評分相同,評價人數也很多(6K, 18K),但4星和2星的比例差別很大。什麽意思呢?
● 時間簡史:大家都覺得不錯,所以評分集中在了4星
● 未來簡史:同時有不少人覺得不錯/較差,在2星和4星有不少的分布。
也就是說, 盡管兩者(平均)分數相同,但是背後的看法非常不同,評分差異很大, 這也正好對應了上面,未來簡史出現兩種截然相反的熱評的情況。
2.2 怎麽衡量評分差異
評分分布的差異,可以用方差來衡量,計算方法如下:
也就是計算 評分偏離平均分的程度? 。下文使用標準差(STD),方差開方即可。可以做出標準差(STD) - 豆瓣評分(Rating )散點分布圖(圖九)。為了便於比較,做標準差97%範圍線。
可以看到時間簡史和未來簡史的STD差別確實很大,未來簡史的標準差排在前3% ,爭議性是巨大的,而時間簡史則小很多。那麽我們可以設問
這些小說的分數相同,但同樣好看/不好看嗎?
比如,時間簡史和的未來簡史分數壹樣,但他們壹樣好看嗎?
當然不是。
如前面的比較,未來簡史雖然評分較高,但其4星/2星和時間簡史差別很大。為什麽呢?大家可能早有耳聞,看評論也能看到。通常,我們總是在討論壹本書籍評分的高低,只是平均分,當大家看法壹致的時候,這個分數會很有參考價值。如果 當評分差異很大(STD很大)的時候,這個分數的作用就有限了。
3.類別的差異
對於同壹類別,不同的出版社,評分和標準差之間存在較大的差異,那麽,對同壹出版社,不同類別的書籍的評分,會有多少種形狀呢?我們選取了中信出版社的圖書部分做了數據分析,用K-Means,輸入數據為四個評分等級的比例。實際可以把類別分得很細,這裏簡單分成4種,比較有代表性,結果如下(圖十、圖十壹)
需要註意的是,高STD的書籍因為其形狀差異很大,並不適用於進行分類判定。
從上圖看出,在每個形狀下,也能看到STD高/低的書籍,比如人人都該買保險 ,二手時間 等等,綜合來看,中信出版的圖書在評分的7.6-8.8的書,STD都是比較穩定的,沒有波動特別大的情況,所以類別之間的評分差異其實相差也不大。
4. 爆款圖書評分的差異
我們針對中信出版社的歷年輿情變化,圖書爆款做了類比(如圖十二)。
爆款數量變化如下圖(圖十三)
從圖十二、圖十三我們可以看到,中信出版社歷年爆款圖書大致呈正態分布,說明使用的數據量基本足夠。各個年代的爆款數量並沒有壹定的規律性。那對應的爆款書籍輿情分布又是怎樣呢,如下圖十四所示,
上圖顯示, 中信爆款書籍的STD展示效果主要集中在1.3-1.6之間,對於這部分書籍我們取出部分在圖下進行了書籍展示(如圖十五)
從上圖可以看出, 經典書籍 的評分和STD高度相關,評分高,STD會比較低。也就是說,盡管書籍評分是非常個人化的事情,每個人對書籍的評價會有所差別,但是放到豆瓣的大用戶量下,評分的大眾性很強,經典書籍的評分STD還是很小的。也就是說,書籍的評分和出版的時間,爆款的程度沒有正相關的聯系。
5.評價差異最大的書籍是什麽?
從上圖我們看到各個評分的STD都有高有低,那麽我們看壹下STD的最大臨界值是怎樣的壹個情況,從樣例中,我們進行了STD差異最大的書籍進行了篩選,如下圖所示:
評價差異大的原因可能來自多個方面,這裏我們就不進行討論了。
6.搜索內容相近書籍和評分是否準確?
大家如有看過蘭大的高手寂寞之類的書籍,是否會有想繼續找壹些在內容和評分,以及評級上都能夠與之媲美的書籍?豆瓣本身是有推薦機制的,如下圖所示:
我們可以看到,豆瓣關聯推薦的書籍,在評分、評級、內容上有些和目標書籍相差有些大,為驗證評分和評級的相似性,我們在中信雲機器學習平臺上,對豆瓣圖書進行相似度建模,通過word2vec解析,來找到和目標書籍內容,評級,評分等最為接近的書籍。
例如輸入矽谷鋼鐵俠,我們通過對矽谷鋼鐵俠的數據標簽進行建模解析,查出最接近此書內容的詞雲如下圖(圖二十壹)所示。
我們從豆瓣查出兩本書的評價情況,評分和評級構成都是極為相似。
在推薦的時候,查詢鞋狗,第壹關聯也是能看到矽谷鋼鐵俠名列前茅,豆瓣的推薦和機器學習實測的推薦是相吻合的。
總結
豆瓣的圖書評分,大家都知道是顯示的平均分,也都能看到分數的分布情況,在大多數情況下,這個平均分是有效的,因為大家的評價較為接近(STD較小),但是很少有人註意到評分的分歧大小(即STD的大小),當看到壹部STD很大的書籍, 平均分和我們感受不符時,我們會感到疑惑,進而覺得豆瓣的評分不靠譜,實際上,只是因為人民的評價差異太大(STD太大),使平均分的意義變得有限了而已。
豆瓣的圖書推薦,通過對目標圖書的內容標簽,評分構成和區間等進行綜合對比,從而推薦和目標圖書最相近的書籍,從目前的機器學習測量樣本數據觀察,這個評分是比較準確的。
最後,分析有什麽疏漏,或者沒講清楚的地方,也歡迎大家指出~
安利壹下: 中信機器學習平臺 , 有興趣的朋友可以註冊登陸試用壹下。