統計數字會撒謊-讀書筆記
我們每天都會看到各種各樣的數據,但是數據的真實性、可信性,就需要我們擦亮雙眼了。
數據本無對錯,通過本書,我們可以更好的識別出日常哪些數據是有問題的。
用事實說話,日常生活中,我們會接觸到越來愈多的 統計數據和資料 ,其中,不乏有人對數據進行造假,我們要學會甄別。
事實往往在所見所聞之外
數據來源的樣本就是有偏差的,根據有偏差的樣本得出的數據結論,也是不準確的。
樣本數據和整體數據之間的差異
壹個以抽樣為基礎的報告如果要有價值,就必須使用具有代表性的樣本 ,這種樣本排除了各種誤差
最基本的樣本是隨機樣本,它是指完全遵循隨機的原則從總體中選出樣本。隨機樣本的檢驗標準是:總體中的每個名字或事物是否具有相同的幾率被選進樣本。
和平均數有關的壹些謬誤,通常會和平均數的算法有關。
通常意義上的平均值就是指算數平均值
而平均值有時並不能代表整體情況
主要指樣本容量不充分,小樣本數據同樣不能代表整體。
可能誤差、標準誤差
我們不能忽略數據背後可能存在的誤差
由圖表引發的壹些誤導性結論。
通過修改圖表的坐標軸,比如修改起始點,隱藏坐標軸等方式,讓人產生錯覺,得出錯誤結論:
類似的手法,還有使用圖形化的方式,圖表會更好看,但也更容易產生迷惑
很多結論和數據是不匹配的,這類似於掛羊頭賣狗肉,這都是壹種思維謬誤,猛的壹聽,很容易相信,但是仔細想想,就會發現其中的問題。
比如這個死亡率的例子,參軍真的更安全嗎
肯定不是的,這個數據不能說明什麽問題,進行對比也是沒有價值的。參軍的都是年輕人,留在城市的都是老人、小孩兒,人群都不壹樣,有談何對比呢?