數字.圖片.文字

《統計,讓數字說話!》(David S. Moore 著,鄭惟厚譯,天下遠見,2009年6月第2版第1刷)第三章講「量度」,提醒了我幾個與數字相關而忽略了的概念,很好。章末最後一句說﹕

如果你養成仔細檢查數字的習慣,你的朋友們很快就會覺得你很有頭腦,而且他們還可能是對的呢。(頁148)

那就怪不得我的朋友都不覺得我很有頭腦了。算了吧。

這章有一個議題﹕數字可以怎樣「詐」我們。它再次提醒我們永遠要問﹕資料怎樣產生的?所度量的確實是什麼?因為有些數字「是事實,但不是全部的事實」;要留心「用意良善」的數字;更要有懷疑的態度,因為有「不可信的數字」、數字彼此之間可能不一致,甚至有些數字可能好得不像真的。(頁140-5)這個也不用我多引述了吧。

不如講講可信數字可以會說些什麼吧。「我們已經習慣於用有點虔敬的態度來對待數字。因為它們看起來那麼可靠,又那麼確實。」(頁136)這樣說,算不算有點賣花讚化香呢?

我們都聽說過,一張好的圖片勝似甚或勝過萬語千言。

統計數字可以說明很多東西。戰爭圖片可以說明很多東西。那麼,文字呢?

一個人倒臥在血泊中,可以說明些什麼呢。如果沒有文字。

再說數字0。「長度0公分就是『沒有長度』,時間0秒是『沒有時間』。但是溫度攝氏0度只是水的冰點,不是『沒有溫度』。」(頁139)

沒有了圖片顯示出來,我們還可以說「有一個人倒臥在血泊中,是敵軍亂槍掃射而死去的」。沒有數字,我們還可以說現在已冷至「冰點」。

不過,有圖片,有數字,再加上文字,就更清楚明白了。

要「詐」,圖片可以假,「古」已有之,於今為烈。製造數字,玩弄數字,可以變出不同的「事實」。當然,文字也可以作假。

沒有哪一樣最真最假最好最差。各有不同的位置不同的作用。公平點好。

廣告

數字真要來了

享受了兩章不用與數字多大打交道的甜蜜溫馨時光,終於很怕面對的都要來到眼前了。

拖拖延延,還是要來到《統計,讓數字說話!》(David S. Moore 著,鄭惟厚譯,天下遠見,2009年6月第2版第1刷)的第三章「量度」。Measurement 可以沒有數字嗎。

統計是討論數字的。光是計劃如何利用樣本及實驗來產生數據,並不會自動就產生數字。一旦……(頁122)

我知道我知道。我的「噩夢」要開始了。我當然不會就此放棄啦。睇戲睇全套,看書看全本嘛。才不怕呢,最壞也不過看得昏頭昏腦,又不用考試的。更何況,跟著下來就出現這樣的文字﹕

讓我們繞過大學入學試採用SAT分數的爭論。我們就只量度所有申請者的身高,然後錄取個子最高的學生。餿主意,你一定會這麼說。為什麼呢?因為身高和適不適合讀大學一點關係也沒有。用比較正式一點的語言來說,身高並不是一個學生學業背景的「有效」(valid)量度。(頁125)

「餿主意」,咪即係「屎橋」?呵呵呵。無論怎樣,數字要說話,但數字又不能不靠文字「加把口」說清楚「心裡的話」。更不用怕了。數字正式「隆重」登場,還是要有文字「拍住上」的;何況這本書有的是沒有那麼正式的語言,偶然搞一點笑,輕鬆一下。提神醒腦啊。

來,再來,努力。前進,前進進。

雙盲.退出

《統計,讓數字說話!》(David S. Moore 著,鄭惟厚譯,天下遠見,2009年6月第2版第1刷)真的很好看啊。

看見數字,我就心煩頭昏,但在看不算多的數字之前,看到這張插圖,就先精神為之一振,再看下去就增加了樂趣。這是一個講隱性偏差的例子﹕雙盲(double-blind)實驗。主要提到醫學實驗中的受試對象不會被告知他們服用的是標準用藥、新藥或安慰劑。因為無論受試者或醫師和其他醫事人員知道某一受試對象服用「只是安慰劑」,「心理因素」會影響實驗結果,從而也令統計不夠準確。

後面就提到一個名為「紐澤西福利實驗」(New Jersey Income-Maintenance Experiment)的公共政策實驗(頁108-9)。這個實驗從1968年開始,經過9 年才得到結果。成功?失敗?不如看看下「圖」吧。(其實是我懶惰,也怕了那些數字,只拍照「交差」當圖算了。呵呵呵。)不知香港的公共政策統計,又是如何做的呢。

告訴.知情.統計

幸好我現在看書都不用考試,否則以我愛胡思亂想的習性,正經的沒專心學習,倒去想些題外話,學得一塌糊塗,肯定難以通過考核。

又來了。看《統計,讓數字說話!》(David S. Moore 著,鄭惟厚譯,天下遠見,2009年6月第2版第1刷),我又將數字放在一旁,卻讓文字走到台前。還是講「實驗」這一章,提到一個家庭暴力實驗,其中一句說﹕

警察不願意逮捕,因為受害者極少會提出告訴。(頁119)

香港或許不太習慣「告訴」這個用詞,可能當作「通知」或「陳述」解。殊不知,這是茲事體大的事,據網上《重編國語辭典修訂本》的解釋是﹕

被害者向高級長官或機關告發,稱為「告訴」。《五代史平話.唐史》卷上:「中和四年七月,李克用奉表自陳,告訴朱全忠上源驛謀殺的事。」明《徐霖.繡襦記》第二十二齣:「近日聞得東西二肆相爭主顧,必來告訴於我,且待審個是非則個。」

我知道台灣還有「告訴乃論」一例﹕

必須經被害人或有告訴權人的告訴,才能論罪,如傷害罪、妨害名譽罪等。

香港一向用的是「投訴」或「指控」。卻原來大陸也用「告訴」這個「古已有之」的詞,且看《中華人民共和國刑法》第二编第七章:「第一百七十九條……第一款罪,告訴的才處理。」

就是這麼一回事。回說家庭暴力,原來美國也跟香港一樣,有「受害者極少會提出告訴(指控)」的情況。

再說這個實驗,統計結果顯示,「逮捕家庭暴力嫌犯,會減少他們以後的暴力行為。由於有這樣的證據,在很多城市,逮捕已經成為警察對於家庭暴力的一般處理方式。」(頁119)

其實這個實驗的「受試者」都是「真人真事」,而且都在沒有「知情且同意」的情況下進行的。按美國的道德條例,如此進行實驗是禁止的。但問題是,這種實驗除了「真人真事」才可作出有用的統計,如果要受試者預先知道,而且同意,根本沒可能進行,做了也不可能得出正確的數據。

但該研究被批准了,因為,引用一位家庭暴力研究者所說的﹕「這些人是因為有了讓警察可以逮捕他們的行為,才變成受試對象的。你要逮捕一個人,可不需要經過他的同意。」(頁119)

所以說,要做好一個統計,真是不容易。金錢,時間,法律,甚而道德,等等,都有關卡。這些已算是較客觀的因素,也較易預知和控制,其他的人為人心因素,更會增加難度。

懷疑統計的結果,大概可以理解吧。也因此,對好的統計結果,更應讚賞,更該尊重。

統計疑問

「統計」這個名詞,我當然不會陌生。說起來,我也算是參與過一些「小型」統計。但這門學科,我真的完全不懂,知道是可以信任的學科,只是老覺得有些所謂統計數字或結果不太可信而已。

既已「自暴其醜」,在這裡提出過幼稚的懷疑問題,得到指點,也就乘機看一下這方面的書,算是貫切自己一向的「終身學習」原則。

《統計,讓數字說話!》 (David S. Moore 著,鄭惟厚譯,天下遠見,2009年6月第2版第1刷)一書,是我憑多年看書選書經驗得回來的「直覺」揀選的。先有兩方面覺得沒選錯,如譯者是統計學博士,對統計當有很深的認識,選這本書來翻譯推介,當有十足的理由。而她的一篇簡短的導讀,也點出了我最想知的內容,更知沒有選錯。然後是教授這門學科的網友Lin 指出這是本好教科書,我就更放心細讀了。

以我一向的習慣,也不知好壞,就是邊讀邊在這裡寫下感想或問題,算是讀書札記。讀這本書時,沒多久即有好些感想和問題,本待一如以往,一一記下來。只是想想,我對這門學科完全沒底,不像自己較熟悉的文史書,就算先胡吹一番,也不致離天萬丈,不著邊際。好,我就少有地不急不躁,等看完一個段落,才將感想記下來。

全書共八章,我看了第一章,就是我最感興趣,也即我之前疑問多多的部分。是,就是「樣本」問題。

我最在意是樣本的大小。我就自己看過的一些香港統計結果中,每每覺得樣本數目太少,自然覺得結論有點難以入信。另一方面,是統計的方法是否有問題,例如是否有傾向性。這些,第一章都一一提供了答案。

首先,抽取一個數量的樣本來作調查,結果不可能百分百準確,但往往跟普查的結果未必相去太遠,也即可信程度甚高。當然,不是沒條件的。簡單地說,就是統計的方法和過程要審慎和正確,盡量減少誤差。

原則說來容易,真要做到,就無處不是關卡。原來要求取資訊的對像全體,也即母體(population),數目大小並不重要,反而用作蒐集母體資訊以便對整個母體做某些結論的樣本(sample)大小才重要。一句話,樣本愈多愈準確。也可以說,我一直的懷疑不是毫無理由的。

另外,選擇樣本的方式,也影響很大。簡單而言,簡單隨機樣本(SRS, simple random sample)選出來的,偏差最小。當然,這中間也有細節的,不詳述了。但有兩樣已被認為最易帶來偏差的,就是「電話抽樣」調查和問卷調查方式。由我所知香港採用的所謂抽樣調查方式中,最常見常用的方式,就是可能沒有好好處理的電話抽查方式,也有街頭訪問和問卷調查,都是令我一直信心不足的原因。本書都一一點出其問題所在。

「問題的措辭」也有很大影響,「問題的說法傾向於某個答案,則又是一個非抽樣誤差的來源。有一招受歡迎的把戲是問受訪者是否贊同某項政策以更便達到某種目標﹕……」(頁60 – 1)這算不算蓄意誤導,也是我提出過的疑問。

不用再列舉下去了吧。

咦!我如此列出做統計時似乎輕易即會犯上而致「不大可信」的原因,莫非這是一本反統計的書?分明要倒統計之米?

不是的。這本書不單告訴我們什麼是統計,統計之大用,可以幫助「預測」,可以「預訂」及「制訂」很多方案,等等,好處多籮籮。但作者也點出了這種方法會出現的問題,例如不能只顧省事省錢,於是樣本只求減省,驗證過程也但求愈少愈好,以至於輕率進行,輕下結論,甚而用有傾向指引的問題來作誤導,務求達到設想的目的。

沒有最好的方法,沒有最好的東西。只說好而隱瞞弊端,不是知者所應為之事。這本書該會教曉我統計的「真面目」。只要我耐心讀畢全書,當會獲益不淺。

努力。

知情且同意

在《統計,讓數字說話!》(David S. Moore 著,鄭惟厚譯,天下遠見,2009年6月第2版第1刷)一書中,提到「知情且同意」(informed consent)的問題。作者說,「知情」和「同意」兩部分同樣重要。(頁79)

簡略地說,「受試對象必須在事前被告知該研究的性質,及任何有可能發生的傷害。如果是抽樣調查,……受訪對象應該被告知調查中會問到哪類問題及大概要花多少時間。訪問員要取得受訪對象的書面同意後,才開始問問題。」

作者舉新疫苗和新醫療方法做試驗的問題,提到究竟受試驗對象是否都能「知情且同意」呢?作者列出幾類例子。如昏迷中的病人,或中了風的,還有「大部分時候,連徵求家屬同意都來不及。」「即使對完全清醒的病人而言,『知情且同意』所造成的困難仍然存在。」不一一引述了。這些情況及原因都不難明白。倒是這一項不能不令我深思﹕

兒童也沒能力完全知情然後同意,所以一般的程序是問他們的父母。

曾幾何時,兒童的「話事權」都操在父母的手上。原來天下間似乎都考慮到同一原因,就是兒童「沒有能力」。不過,在某些情況下,又有人大聲大力提出,父母只是將兒童帶來這個世界,孩子已成獨立的個體,不再是父母的「私有物」,父母再沒有權力決定兒童的生死或路向等。可是,在例如試驗新疫苗之類也可能決定生死存亡的情況下,依「一般的程序」,還是得「問他們的父母」。

好一個「問」,何嘗不是由父母作主呢?

當然,這種「知情且同意」並非「必死」的情況,而且出發點大都被認為是「為兒童好」。但誰知道這個決定真能為兒童帶來好處呢。而最重要的是,這個決定真的是兒童自己的意願嗎。

只想說的是,批評一些父母如何「處理」年幼子女的生死時,不要只管一味的罵,認為那些父母沒權「剝奪」子女的生存權利。簡單地說,這根本就不是一個簡單的問題。

你說吧,數字

坐言起行。真的買了這本講統計的書。《統計,讓數字說話!》Statistics : Concepts and Controversies(David S. Moore 著,鄭惟厚譯,天下遠見出版股份有限公司,2009年6月第2版第1刷)

先在書店的英文部看到一本自助式的。翻開來,滿載了數字,還有公式。謝謝了。

再巡視一下。從沒在書店找過這類書。在數學類看了一本又一本。有中學教科書,有輕輕鬆鬆看漫畫學統計的,還是這本讓數字說話的最少數字,就搞定了。

回家先看了譯者的「導讀」。短短一篇〈數字真的說了什麼?〉就已解答了我積存多年的問題。讀到這篇之前,還擔心看不看得下去,單是一篇短文,就令我增加了信心。

原來是教科書。是作者在美國一所大學教統計通識課時完成並修訂的。那門通識課程的對象主要是文科學生。譯者也是修讀統計的,譯著都與統計相關的,不是門外漢,翻譯時出錯的可能該會大大減少吧。導讀中還說﹕「在讀到這本書之前,還真不相信統計書可以寫成這麼『不專業』,這麼可讀。」(頁13)

「這麼可讀」,最好不過了。

譯者在「導讀」中提到四個「預告」,其一為﹕

D. 民意調查(我指的是公正的專業機構所做的民意調查)為什麼可以只問一兩千人的意見,就告訴我們大家是怎麼想的呢?(頁10)

這不就是我亟亟要知道的「事實」嗎?

鄭惟厚在文末更說﹕

如果下次再看到如下的「報導」﹕「經過測試,某某方法減肥最具成效」或「根據調查,某某門號的大哥大通話品質最佳」,建議你不妨打個電話去問一下,測試或調查是怎麼做的?樣本如何取?樣本大小如何?看看他們如何回答,你再判斷要不要相信那則廣告吧!(頁14)

呵呵呵,好像都是我問的問題。