電腦.人腦.了解

要計算相關係數,稍微麻煩一點。實際應用時,只要餵進資料,就可以讓計算機或電腦軟體幫我們做算術。然而,r 的公式可以有助於我們了解相關係數背後的道理是什麼,所以我們還是把公式列出來。

以上一段話,抄自《統計,讓數字說話!》(David S. Moore 著,鄭惟厚譯,天下遠見,2009年6月第2版第1刷)頁226。類似的話,出現不止一次。以下是另一寫法﹕

這時我們就沒法子光靠目視法在變數之間配適關聯了。必須有個方法讓電腦可以照著做。幸好,電腦的確會幫我們算出反應變數和所有解釋變數之間的複相關係數。(頁251)

有了計算機,有了電腦,的確幫了人腦不少忙。不過,很多「背後的道理」,人腦就不知是什麼了。這何止是算式呢。

這令我想起兩種情況。

小孩子知道如何運用算式後,就伸出兩隻手掌,小手指一根根屈屈伸伸的,跟著微微一笑,即時拿起鉛筆,寫下唸出的數字。在做算術啊。

另一種情況,是做會計的人,將帳單上的哪怕只是幾行數字加起來,再均分。不會拿出手指或紙,拿出來的卻是手機。按按按。按15+8,按+21,再按……然後,有了。都在做算術啊。

兩番場面,都很有趣。

巧合.緣份

《統計,讓數字說話!》(David S. Moore 著,鄭惟厚譯,天下遠見,2009年6月第2版第1刷)談「因果關係」時,也說到巧合問題。

書中舉了同一人贏得兩次彩券大獎的機會,以及美國某一區域的250戶中有67個癌症個案的不尋常情況來作對比討論。

不複述這兩個例子了。只抄作者對這等情況的看法。

我們已經看到﹕從觀測到的相聯做出結論之前,搜尋其他可能潛藏在背景裡的變數很重要。還有另一種危險﹕不經意觀察到的事情可能讓我們誤以為有因果關聯,但事實上完全只是碰巧罷了。當我們看到不尋常的事件時,可能只因為不尋常,而想去找個原因,但是它可能只是巧合。畢竟,只要我們注意周圍的時間夠長,就會看到些稀奇事。當然,「這個特定」不尋常事件會發生的機會實在不大,但是可以確定,「某些」不尋常事件遲早會發生的,只是因為偶然。(頁239-40)

巧合,或偶然,因為不尋常,往往輕易令人認為有因果關係。美國最近發生5000隻鳥與10條魚離奇死亡的事件,官方就認為兩事沒有關聯。事後證實事出有因(1月4日按﹕再有大量離奇死亡的鳥出現,原因仍未明。)。不過也一度引起恐慌的揣測和議論。這也算是一個即時的活生生巧合例子吧。

巧合,某種情況下若說成是「綠份」,似乎要迷人得多了。

因果問題

《統計,讓數字說話!》(David S. Moore 著,鄭惟厚譯,天下遠見,2009年6月第2版第1刷)已看了三分之二,到第二部分「整合數據」,已漸覺有點吃力,因為有較多與數字相關的論述。

來到第五章,講「了解關聯的意義」,也不是完全看不入腦。例如談「因果關係」,倒又頗「人文」的。不如先將一個圖放在下面,方便我繼續胡言。

圖算是很簡單吧。真接的的因果關係當然最易明解,但世事哪會如此理想,沒有其他因素的影響呢;這就是變數了。

簡單如父子間的身高關係,是最直接的因果關係(如遺傳),其實也受其他因素如營養的影響,日常幾乎自行觀察也可得到結果,不用多作解釋。這本書當然沒有令我失望,也拿吸菸與肺癌的統計結果來作例子。

不詳述了。只抄結論﹕

醫界當局毫不猶豫宣稱吸菸導致肺癌。……因果證據是壓倒性的——但是比不上用隨機化比較實驗得到的證據強。(頁239)

有留意的話,司徒華知道肺癌之後,曾有記者問他後不後悔以前吸菸。他安然答道,其實吸的時候已知道有這種後果。(大意)也即後悔也無補於事,只有積極面對和接受治療。

這又令我想起梁文道,他雖然沒有明言肺癌與吸菸無關,卻將反吸菸與納粹黨聯想到一起,更列舉當年那些策劃反吸菸運動的人,「沒一個好死」。(〈反對吸煙的納粹黨〉,《常識》,廣西師範大學出版社,2009年1月第1版,頁288-90)這種說法,比吸菸致癌的統計更嚇人。

書中再說了相關的另一個例子。就是處方藥與胎兒缺陷的關係。這是一個要考慮多種變數的關係,卻又不能直接以人來做實驗。吸菸者較普遍,做觀測研究較易。但孕婦吃處方藥的例子不多,真要有令人完全信服的統計,接近不可能。試看本書是怎樣寫這個結論﹕

以班得廷這個例子來說,超過20個研究大部分發現這個藥是安全的。大部分控訴班得廷造成胎兒缺陷的案子都敗訴。但訴訟費仍然迫使製造商將藥自市面撤回。使用班得廷可能風險很小或者沒有風險,但是我們能夠確定的只是「沒有足夠證據」。(頁238)

好一個「沒有足夠證據」。班得廷是用來減輕懷孕期嘔吐症狀的藥。有風險沒風險,有時未必完全基於「事實」。原來我們日常有很多可能要承受莫名也莫明的痛苦或風險而不知原因的。統計學在其間原來扮演了重要的角色。