關於大數據分析的四個關鍵環節
隨著大數據時代的到來,AI 概念的火熱,人們的認知有所提高。為什麽說大數據有價值 這是不是只是壹個虛的概念 大家怎麽考慮數據驅動問題 為什麽掌握更多的數據就會更有效 這些問題很難回答,但是,大數據絕不是大而空洞的。
信息論之父香農曾表示,信息是用來消除不信任的東西,比如預測明天會不會下雨,如果知道了今天的天氣、風速、雲層、氣壓等信息,有助於得出更準確的結論。所以大數據是用來消除不確定性的,掌握更多的有效數據,可以驅動企業進行科學客觀的決策。桑文鋒對大數據有著自己的理解,數據采集遵循“大”、“全”、“細”、“時”四字法則。“大”強調宏觀的“大”,而非物理的“大”。大數據不是壹味追求數據量的“大”。比如每天各地級市的蘋果價格數據統計只有 2MB,但基於此研發出壹款蘋果智能調度系統,就是壹個大數據應用,而有些數據雖然很大,卻價值有限;“全”強調多種數據源。大數據采集講求全量,而不是抽樣。除了采集客戶端數據,還需采集服務端日誌、業務數據庫,以及第三方服務等數據,全面覆蓋,比如美國大選前的民意調查,希拉裏有70%以上勝算,但是川普成為了美國總統,因為采樣數據有偏差,支持川普的底層人民不會上網回復。“細”強調多維度數據采集,即把事件的維度、屬性、字段等都進行采集。如電商行業“加入購物車”的事件,除了采集用戶的 click 數據,還應采集用戶點擊的是哪個商品、對應的商戶等數據,方便後續交叉分析。“時”強調數據的時效性。顯然,具有時效性的數據才有參考價值。如國家指數,CPI 指數,月初收集到信息和月中拿到信息,價值顯然不同,數據需要實時拿到,實時分析。從另壹個視角看待數據的價值,可以分為兩點,數據驅動決策,數據驅動產品智能。數據的最大價值是產品智能,有了數據基礎,再搭建好策略算法,去回灌產品,提升產品本身的學習能力,可以不斷叠代。如今日頭條的新聞推薦,百度搜索的搜索引擎優化,都是數據驅動產品智能的體現。
數據分析四個關鍵環節 桑文鋒把數據分析分為四個環節,數據采集、數據建模、數據分析、指標。他提出了壹個觀點,要想做好數據分析,壹定要有自底向上的理念。很多公司的數據分析自頂向下推動,用業務分析指標來決定收集什麽數據,這是需求驅動工程師的模式,不利於公司長久的數據采集。而壹個健康的自底向上模式,可以幫助公司真正建立符合自己業務的數據流和數據分析體系。 壹、數據采集 想要真正做好大數據分析,首先要把數據基礎建好,核心就是“全”和“細”。 搜集數據時不能只通過 APP 或客戶端收集數據,服務器的數據、數據庫數據都要同時收集打通,收集全量數據,而非抽樣數據,同時還要記錄相關維度,否則分析業務時可能會發現歷史數據不夠,所以不要在意數據量過大,磁盤存儲的成本相比數據積累的價值,非常廉價。 常見的數據采集方式歸結為三類,可視化/全埋點、代碼埋點、數據導入工具。
第壹種是可視化/全埋點,這種方式不需要工程師做太多配合,產品經理、運營經理想做分析直接在界面點選,系統把數據收集起來,比較靈活。但是也有不好的地方,有許多維度信息會丟失,數據不夠精準。第二種是代碼埋點,代碼埋點不特指前端埋點,後端服務器數據模塊、日誌,這些深層次的都可以代碼埋點,比如電商行業中交易相關的數據可以在後端采集。代碼埋點的優勢是,數據更加準確,通過前端去采集數據,常會發現數據對不上,跟自己的實際後臺數據差異非常大。可能有三個原因:第壹個原因是本身統計口徑不壹樣,壹定出現丟失;第二點是流量過大,導致數據丟失異常;第三點是SDK兼容,某些客戶的某些設備數據發不出去,導致數據不對稱。而代碼埋點的後臺是公司自己的服務器,自己核心的模擬可以做校準,基本進行更準確的數據采集。第三種是通過導入輔助工具,將後臺生成的日誌、數據表、線下數據用實時批量方式灌到裏面,這是壹個很強的耦合。數據采集需要采集數據和分析數據的人***同參與進來,分析數據的人明確業務指標,並且對於數據的準確性有敏感的判斷力,采集數據的人再結合業務進行系統性的采集。二、數據建模很多公司都有業務數據庫,裏面存放著用戶註冊信息、交易信息等,然後產品經理、運營人員向技術人員尋求幫助,用業務數據庫支持業務上的數據分析。但是這樣維護成本很高,且幾千萬、幾億條數據不能很好地操作。所以,數據分析和正常業務運轉有兩項分析,數據分析單獨建模、單獨解決問題。數據建模有兩大標準:易理解和性能好。數據驅動不是數據分析師、數據庫管理員的專利,讓公司每壹個業務人員都能在工作中運用數據進行數據分析,並能在獲得秒級響應,驗證自己的新點子新思維,嘗試新方法,才是全員數據驅動的健康狀態。多維數據分析模型(OLAP)是用戶數據分析中最有效的模型,它把用戶的訪問數據都歸類為維度和指標,城市是維度,操作系統也是維度,銷售額、用戶量是指標。建立好多維數據分析模型,解決的不是某個業務指標分析的問題,使用者可以靈活組合,滿足各種需求。三、數據分析數據分析支持產品改進產品經理在改進產品功能時,往往是拍腦袋靈光壹現,再對初級的點子進行再加工,這是不科學的。《精益創業》中講過壹個理念,把數據分析引入產品叠代,對已有的功能進行數據采集和數據分析,得出有用的結論引入下壹輪叠代,從而改進產品。在這個過程中大數據分析很關鍵。Facebook 的創始人曾經介紹過他的公司如何確定產品改進方向。Facebook 采用了壹種機制:每壹個員工如果有壹個點子,可以抽樣幾十萬用戶進行嘗試,如果結果不行,就放棄這個點子,如果這個效果非常好,就推廣到更大範圍。這是把數據分析引入產品叠代的科學方法。桑文鋒在 2007 年加入百度時,也發現了壹個現象,他打開郵箱會收到幾十封報表,將百度知道的訪問量、提問量、回答量等壹壹介紹。當百度的產品經理提出壹個需求時,工程師會從數據的角度提出疑問,這個功能為什麽好 有什麽數據支撐 這個功能上線時如何評估 有什麽預期數據 這也是壹種數據驅動產品的體現。數據驅動運營監控運營監控通常使用海盜模型,所謂的運營就是五件事:觸達是怎麽吸引用戶過來;然後激活用戶,讓用戶真正變成有效的用戶;然後留存,提高用戶粘性,讓用戶能停留在妳的產品中不斷使用;接下來是引薦,獲取用戶這麽困難,能不能發動已有的用戶,讓已有用戶帶來新用戶,實現自傳播;最後是營收,做產品最終要賺錢。要用數據分析,讓運營做的更好。數據分析方法互聯網常見分析方法有幾種,多維分析、漏鬥分析、留存分析、用戶路徑、用戶分群、點擊分析等等,不同的數據分析方法適用於不同的業務場景,需要自主選擇。舉個多維分析的例子,神策數據有壹個視頻行業的客戶叫做開眼,他們的軟件有壹個下載頁面,運營人員曾經發現他們的安卓 APP 下載量遠低於 iOS,這是不合理的。他們考慮過是不是 iOS 用戶更願意看視頻,隨後從多個維度進行了分析,否定了這個結論,當他們發現某些安卓版本的下載量為零,分析到屏幕寬高時,看出這個版本下載按鈕顯示不出來,所以下載比例非常低。就這樣通過多維分析,找出了產品改進點。舉個漏鬥分析的例子,神策數據的官網訪問量很高,但是註冊-登錄用戶的轉化率很低,需要進行改進。所以大家就思考如何把轉化漏鬥激活地更好,後來神策做了小的改變,在提交申請試用後加了壹個查看登錄頁面,這樣用戶收到賬戶名密碼後可以隨手登錄,優化了用戶體驗,轉化率也有了可觀的提升。四、指標如何定義指標 對於創業公司來說,有兩種方法非常有效:第壹關鍵指標法和海盜指標法。第壹關鍵指標法是《精益數據分析》中提出的理論,任何壹個產品在某個階段,都有壹個最需要關註的指標,其他指標都是這個指標的衍生,這個指標決定了公司當前的工作重點,對壹個初創公司來說,可能開始關註日活,圍繞日活又擴展了壹些指標,當公司的產品成熟後,變現就會成為關鍵,凈收入(GMV)會變成第壹關鍵指標。