2013 in review——此中有你,能不感動

The WordPress.com stats helper monkeys prepared a 2013 annual report for this blog.

Here’s an excerpt:

The Louvre Museum has 8.5 million visitors per year. This blog was viewed about 74,000 times in 2013. If it were an exhibit at the Louvre Museum, it would take about 3 days for that many people to see it.

Click here to see the complete report.

信心

《統計,讓數字說話!》(David S. Moore 著,鄭惟厚譯,天下遠見,2009年6月第2版第1刷)一書,已近尾聲了。最後一章是〈推論﹕有信心的結論〉,我讀著讀著,完全沒有信心明白。

數字更多,在我看來更繁複,公式,其實不算太難,但我已無心順著一一記住。於是,只能相信文字的敘述了。有兩節一開始即有溫馨提示﹕

(.注﹕這節內容的專門性比本書其他部分要高。)(頁333、350)

哦,原來我一直看的都不夠專門。也罷了,能對「統計」有個概念也算不錯了。

這章經常出現一個形狀很相近的圖,我總會想起《小王子》。《小王子》一開始也有近似的圖,可包著不是數字,而是一隻象呢。

只剩下十頁左右。明天吧。

這篇該是最後一篇了。

不是這個網誌的最後一篇。不用開心太早,只是關於《統計,讓數字說話!》的最後一篇而已。完結前,還是抄一小段文字﹕

這個數學事實是在說﹕小的誤差界限需要很大的樣本,因此要花很多錢。真是抱歉。(頁339)

估總統

不知現在還有沒有人玩一種不用道具的集體遊戲﹕估領袖

原來半個世紀以前,美國有一位作家玩過「預測總統選舉結果」的「遊戲」。

方法很簡單,就是猜姓氏比較長(字母較多)的候選人。

據《統計,讓數字說話!》(David S. Moore 著,鄭惟厚譯,天下遠見,2009年6月第2版第1刷)說,在1876年到1960年間的22次選舉中,這方法只失敗過1次。

作者跟著說,「我希望那位作者在提出這麼聰明的主張之後,沒有在後來的選舉中把家當拿來下注。」為什麼?作者再舉了1964到1992年的8次選舉為「姓氏長的會贏」這個方法提供了7 次檢定的機會來說明。

結果如何,也不用我多說了。有興趣的,不妨檢一下再之後的結果又如何。這個統計,無花無假,簡單方便快捷,玩至下一屆也無不可。

作者舉這個例子,其實要說明利用統計「沒法子很清楚看到未來,即使有過去的統計紀錄幫忙也不成。」(頁279)

不成又如何,

雖然很少人成功,仍然阻止不了一些魯莽的人繼續嘗試預測未來。經濟學家即使用了精密的統計方法仍常常失敗,被經濟的複雜性好及不規則的外來衡擊給打敗了。一些不高明的預測常會發現了巧合,卻把巧合當做解釋。(頁279)

有多少人就是靠「預測」來吃飯甚至成名致富的。有巧合,要找解釋自然更易有信眾。

有理論有理據的所謂「科學」方法做預測不行,就「另闢蹊徑」了。這個,大概就是「食腦」之謂吧。

《統計,讓數字說話!》(David S. Moore 著,鄭惟厚譯,天下遠見,2009年6月第2版第1刷)有這樣一個小標題﹕

政府統計學家面臨的困難﹕錢

怎麼說呢?

老百姓需要政府統計單位提供些什麼呢?首先,是正確、及時並跟得上社會及經濟的變化腳步的資料。要快速整合出正確的資料需要相當大量的資源。……

很多的困難源於缺錢。當前人口調查所用的六萬個住戶樣本及CPI 所用的九萬項零售價樣本都很花錢。……政府統計機構人員減少,計劃也縮減。薪水低就難以吸引最好的經濟學家及統計學家為政府工作……大部分的經濟學家和統計學家都同意,美國政府統計已經和改變中的經濟脫節了。(頁268-9)

書中的資料大約截至1995年左右,不知到現在情況是否有變,相信「多些錢會有幫助」(頁269)這個條件大致一樣的吧。

書的例子固然是美國的,但理論應該放諸「四海」皆可套用吧。我想說的還是那句,要有好的數據,質固然無比重要,量也不可忽視。缺錢,可能「因價就貨」,取樣本難免可少得少,時間可省得省,至於人才嘛,哈哈,又有多少人只為「理想」,而置自身利益於不顧呢。

我接觸統計這門學問之前,一直懷疑香港的好些所謂「統計數字」,其實就是基於這些「天殘地缺」的因素得來。當然,我最初的懷疑是模糊的,因為我完全不懂,沒根沒據,更沒有理論基礎。例如有些媒體很多時根本沒有找統計機構去做調查,更遑論是有權威的。可能只是請一些臨時員工,或乾脆由記者隨機打電話問一些問題,然後自行「統計」,並作出結論。做得較「詳細」的,是所謂「讀者意見調查」,這種方式其實偏差很大,但往往就用來決定一些所謂計劃。這又教人如何放心呢。

有些「錯」,是借統計之名而來。再說一次,錯不在「統計」,錯在「借計」之人。當然,有時單憑觀察都可大致知道結果,做統計者,不過是借來「過橋」,以堵住悠悠之口吧了。

統計.民主

統計與民主,是風馬牛不相及的物事。續看關於統計的書時,忽然想到民主這回事。

如果說,任何一個稱得上己發展的社會,要好好運作,根本離不開「統計」這種方法,大概不用統計也沒有多少人反對的吧。當然,統計本身沒有作為,但統計可以幫我們知所為並有所作為。愈先進的社會,愈不能沒有統計這回事。

然而,有人會不信任統計,不相信統計數字,不相信借統計之名而帶來的施政之實。忽然又想起莊子,他一定極力反對統計這碼子事。不談他那一套了。單說一般對統計的不信任,未必沒道理,但冷靜一點看,其實錯不在「統計」;錯在沒做好統計,錯用統計,更可惡的是「利用」統計。

要替「統計」辯護,或許較易。也不用我多說。

再說「民主」。都愛說暫時找不到比民主更好的制度。也有人數說出民主的種種弊端,大加攻擊,然後反對。

為什麼有些地方實行民主制度可以好處多多,有些地方則流弊無窮呢?

如果套用「統計」之被利用的情況來看,就不難明白,多麼好的東西,不善加利用,甚或假借來行惡,可能壞處更多更甚。

數字,要翻查再審計,比較容易;劣行劣跡,可要難要麻煩得多。總之,涉及人這因素愈多的,愈易變質。

統計與民主,二者實可等同視之。

因果問題

《統計,讓數字說話!》(David S. Moore 著,鄭惟厚譯,天下遠見,2009年6月第2版第1刷)已看了三分之二,到第二部分「整合數據」,已漸覺有點吃力,因為有較多與數字相關的論述。

來到第五章,講「了解關聯的意義」,也不是完全看不入腦。例如談「因果關係」,倒又頗「人文」的。不如先將一個圖放在下面,方便我繼續胡言。

圖算是很簡單吧。真接的的因果關係當然最易明解,但世事哪會如此理想,沒有其他因素的影響呢;這就是變數了。

簡單如父子間的身高關係,是最直接的因果關係(如遺傳),其實也受其他因素如營養的影響,日常幾乎自行觀察也可得到結果,不用多作解釋。這本書當然沒有令我失望,也拿吸菸與肺癌的統計結果來作例子。

不詳述了。只抄結論﹕

醫界當局毫不猶豫宣稱吸菸導致肺癌。……因果證據是壓倒性的——但是比不上用隨機化比較實驗得到的證據強。(頁239)

有留意的話,司徒華知道肺癌之後,曾有記者問他後不後悔以前吸菸。他安然答道,其實吸的時候已知道有這種後果。(大意)也即後悔也無補於事,只有積極面對和接受治療。

這又令我想起梁文道,他雖然沒有明言肺癌與吸菸無關,卻將反吸菸與納粹黨聯想到一起,更列舉當年那些策劃反吸菸運動的人,「沒一個好死」。(〈反對吸煙的納粹黨〉,《常識》,廣西師範大學出版社,2009年1月第1版,頁288-90)這種說法,比吸菸致癌的統計更嚇人。

書中再說了相關的另一個例子。就是處方藥與胎兒缺陷的關係。這是一個要考慮多種變數的關係,卻又不能直接以人來做實驗。吸菸者較普遍,做觀測研究較易。但孕婦吃處方藥的例子不多,真要有令人完全信服的統計,接近不可能。試看本書是怎樣寫這個結論﹕

以班得廷這個例子來說,超過20個研究大部分發現這個藥是安全的。大部分控訴班得廷造成胎兒缺陷的案子都敗訴。但訴訟費仍然迫使製造商將藥自市面撤回。使用班得廷可能風險很小或者沒有風險,但是我們能夠確定的只是「沒有足夠證據」。(頁238)

好一個「沒有足夠證據」。班得廷是用來減輕懷孕期嘔吐症狀的藥。有風險沒風險,有時未必完全基於「事實」。原來我們日常有很多可能要承受莫名也莫明的痛苦或風險而不知原因的。統計學在其間原來扮演了重要的角色。

2010 in review(我在WordPress的日子)

這大概是WordPress自動給每個使用者的統計吧。老實說,有關數字是有些意外的,反正也沒所謂;剛好最近在看有關統計的書,就姑且放上來吧。

*   *   *   *   *   *

The stats helper monkeys at WordPress.com mulled over how this blog did in 2010, and here’s a high level summary of its overall blog health:

Healthy blog!

The Blog-Health-o-Meter™ reads Wow.

Crunchy numbers

Featured image

About 3 million people visit the Taj Mahal every year. This blog was viewed about 38,000 times in 2010. If it were the Taj Mahal, it would take about 5 days for that many people to see it.

In 2010, there were 771 new posts, growing the total archive of this blog to 959 posts. There were 886 pictures uploaded, taking up a total of 917mb. That’s about 2 pictures per day.

The busiest day of the year was September 24th with 544 views. The most popular post that day was 我跟著孟子的話.

Where did they come from?

The top referring sites in 2010 were fishandhappiness.blogspot.com, chrisleung1954.blogspot.com, zh-hk.wordpress.com, rucbysq.blogspot.com, and Google Reader.

Some visitors came searching, mostly for 李天命, 陶傑, 親眼看見你, 色书, and 蒸肉餅.

Attractions in 2010

These are the posts and pages that got the most views in 2010.

1

我跟著孟子的話 September 2010
8 comments

2

陶傑還不是陶傑的時候 July 2010
14 comments

3

李天命「少作」的「訛誤」 June 2010
35 comments

4

我的意思,你真的知道嗎 August 2010
29 comments

5

大陸地鐵眾生相 June 2010
6 comments