2013 in review——此中有你,能不感動

The WordPress.com stats helper monkeys prepared a 2013 annual report for this blog.

Here’s an excerpt:

The Louvre Museum has 8.5 million visitors per year. This blog was viewed about 74,000 times in 2013. If it were an exhibit at the Louvre Museum, it would take about 3 days for that many people to see it.

Click here to see the complete report.

信心

《統計,讓數字說話!》(David S. Moore 著,鄭惟厚譯,天下遠見,2009年6月第2版第1刷)一書,已近尾聲了。最後一章是〈推論﹕有信心的結論〉,我讀著讀著,完全沒有信心明白。

數字更多,在我看來更繁複,公式,其實不算太難,但我已無心順著一一記住。於是,只能相信文字的敘述了。有兩節一開始即有溫馨提示﹕

(.注﹕這節內容的專門性比本書其他部分要高。)(頁333、350)

哦,原來我一直看的都不夠專門。也罷了,能對「統計」有個概念也算不錯了。

這章經常出現一個形狀很相近的圖,我總會想起《小王子》。《小王子》一開始也有近似的圖,可包著不是數字,而是一隻象呢。

只剩下十頁左右。明天吧。

這篇該是最後一篇了。

不是這個網誌的最後一篇。不用開心太早,只是關於《統計,讓數字說話!》的最後一篇而已。完結前,還是抄一小段文字﹕

這個數學事實是在說﹕小的誤差界限需要很大的樣本,因此要花很多錢。真是抱歉。(頁339)

估總統

不知現在還有沒有人玩一種不用道具的集體遊戲﹕估領袖

原來半個世紀以前,美國有一位作家玩過「預測總統選舉結果」的「遊戲」。

方法很簡單,就是猜姓氏比較長(字母較多)的候選人。

據《統計,讓數字說話!》(David S. Moore 著,鄭惟厚譯,天下遠見,2009年6月第2版第1刷)說,在1876年到1960年間的22次選舉中,這方法只失敗過1次。

作者跟著說,「我希望那位作者在提出這麼聰明的主張之後,沒有在後來的選舉中把家當拿來下注。」為什麼?作者再舉了1964到1992年的8次選舉為「姓氏長的會贏」這個方法提供了7 次檢定的機會來說明。

結果如何,也不用我多說了。有興趣的,不妨檢一下再之後的結果又如何。這個統計,無花無假,簡單方便快捷,玩至下一屆也無不可。

作者舉這個例子,其實要說明利用統計「沒法子很清楚看到未來,即使有過去的統計紀錄幫忙也不成。」(頁279)

不成又如何,

雖然很少人成功,仍然阻止不了一些魯莽的人繼續嘗試預測未來。經濟學家即使用了精密的統計方法仍常常失敗,被經濟的複雜性好及不規則的外來衡擊給打敗了。一些不高明的預測常會發現了巧合,卻把巧合當做解釋。(頁279)

有多少人就是靠「預測」來吃飯甚至成名致富的。有巧合,要找解釋自然更易有信眾。

有理論有理據的所謂「科學」方法做預測不行,就「另闢蹊徑」了。這個,大概就是「食腦」之謂吧。

《統計,讓數字說話!》(David S. Moore 著,鄭惟厚譯,天下遠見,2009年6月第2版第1刷)有這樣一個小標題﹕

政府統計學家面臨的困難﹕錢

怎麼說呢?

老百姓需要政府統計單位提供些什麼呢?首先,是正確、及時並跟得上社會及經濟的變化腳步的資料。要快速整合出正確的資料需要相當大量的資源。……

很多的困難源於缺錢。當前人口調查所用的六萬個住戶樣本及CPI 所用的九萬項零售價樣本都很花錢。……政府統計機構人員減少,計劃也縮減。薪水低就難以吸引最好的經濟學家及統計學家為政府工作……大部分的經濟學家和統計學家都同意,美國政府統計已經和改變中的經濟脫節了。(頁268-9)

書中的資料大約截至1995年左右,不知到現在情況是否有變,相信「多些錢會有幫助」(頁269)這個條件大致一樣的吧。

書的例子固然是美國的,但理論應該放諸「四海」皆可套用吧。我想說的還是那句,要有好的數據,質固然無比重要,量也不可忽視。缺錢,可能「因價就貨」,取樣本難免可少得少,時間可省得省,至於人才嘛,哈哈,又有多少人只為「理想」,而置自身利益於不顧呢。

我接觸統計這門學問之前,一直懷疑香港的好些所謂「統計數字」,其實就是基於這些「天殘地缺」的因素得來。當然,我最初的懷疑是模糊的,因為我完全不懂,沒根沒據,更沒有理論基礎。例如有些媒體很多時根本沒有找統計機構去做調查,更遑論是有權威的。可能只是請一些臨時員工,或乾脆由記者隨機打電話問一些問題,然後自行「統計」,並作出結論。做得較「詳細」的,是所謂「讀者意見調查」,這種方式其實偏差很大,但往往就用來決定一些所謂計劃。這又教人如何放心呢。

有些「錯」,是借統計之名而來。再說一次,錯不在「統計」,錯在「借計」之人。當然,有時單憑觀察都可大致知道結果,做統計者,不過是借來「過橋」,以堵住悠悠之口吧了。

統計.民主

統計與民主,是風馬牛不相及的物事。續看關於統計的書時,忽然想到民主這回事。

如果說,任何一個稱得上己發展的社會,要好好運作,根本離不開「統計」這種方法,大概不用統計也沒有多少人反對的吧。當然,統計本身沒有作為,但統計可以幫我們知所為並有所作為。愈先進的社會,愈不能沒有統計這回事。

然而,有人會不信任統計,不相信統計數字,不相信借統計之名而帶來的施政之實。忽然又想起莊子,他一定極力反對統計這碼子事。不談他那一套了。單說一般對統計的不信任,未必沒道理,但冷靜一點看,其實錯不在「統計」;錯在沒做好統計,錯用統計,更可惡的是「利用」統計。

要替「統計」辯護,或許較易。也不用我多說。

再說「民主」。都愛說暫時找不到比民主更好的制度。也有人數說出民主的種種弊端,大加攻擊,然後反對。

為什麼有些地方實行民主制度可以好處多多,有些地方則流弊無窮呢?

如果套用「統計」之被利用的情況來看,就不難明白,多麼好的東西,不善加利用,甚或假借來行惡,可能壞處更多更甚。

數字,要翻查再審計,比較容易;劣行劣跡,可要難要麻煩得多。總之,涉及人這因素愈多的,愈易變質。

統計與民主,二者實可等同視之。

因果問題

《統計,讓數字說話!》(David S. Moore 著,鄭惟厚譯,天下遠見,2009年6月第2版第1刷)已看了三分之二,到第二部分「整合數據」,已漸覺有點吃力,因為有較多與數字相關的論述。

來到第五章,講「了解關聯的意義」,也不是完全看不入腦。例如談「因果關係」,倒又頗「人文」的。不如先將一個圖放在下面,方便我繼續胡言。

圖算是很簡單吧。真接的的因果關係當然最易明解,但世事哪會如此理想,沒有其他因素的影響呢;這就是變數了。

簡單如父子間的身高關係,是最直接的因果關係(如遺傳),其實也受其他因素如營養的影響,日常幾乎自行觀察也可得到結果,不用多作解釋。這本書當然沒有令我失望,也拿吸菸與肺癌的統計結果來作例子。

不詳述了。只抄結論﹕

醫界當局毫不猶豫宣稱吸菸導致肺癌。……因果證據是壓倒性的——但是比不上用隨機化比較實驗得到的證據強。(頁239)

有留意的話,司徒華知道肺癌之後,曾有記者問他後不後悔以前吸菸。他安然答道,其實吸的時候已知道有這種後果。(大意)也即後悔也無補於事,只有積極面對和接受治療。

這又令我想起梁文道,他雖然沒有明言肺癌與吸菸無關,卻將反吸菸與納粹黨聯想到一起,更列舉當年那些策劃反吸菸運動的人,「沒一個好死」。(〈反對吸煙的納粹黨〉,《常識》,廣西師範大學出版社,2009年1月第1版,頁288-90)這種說法,比吸菸致癌的統計更嚇人。

書中再說了相關的另一個例子。就是處方藥與胎兒缺陷的關係。這是一個要考慮多種變數的關係,卻又不能直接以人來做實驗。吸菸者較普遍,做觀測研究較易。但孕婦吃處方藥的例子不多,真要有令人完全信服的統計,接近不可能。試看本書是怎樣寫這個結論﹕

以班得廷這個例子來說,超過20個研究大部分發現這個藥是安全的。大部分控訴班得廷造成胎兒缺陷的案子都敗訴。但訴訟費仍然迫使製造商將藥自市面撤回。使用班得廷可能風險很小或者沒有風險,但是我們能夠確定的只是「沒有足夠證據」。(頁238)

好一個「沒有足夠證據」。班得廷是用來減輕懷孕期嘔吐症狀的藥。有風險沒風險,有時未必完全基於「事實」。原來我們日常有很多可能要承受莫名也莫明的痛苦或風險而不知原因的。統計學在其間原來扮演了重要的角色。

2010 in review(我在WordPress的日子)

這大概是WordPress自動給每個使用者的統計吧。老實說,有關數字是有些意外的,反正也沒所謂;剛好最近在看有關統計的書,就姑且放上來吧。

*   *   *   *   *   *

The stats helper monkeys at WordPress.com mulled over how this blog did in 2010, and here’s a high level summary of its overall blog health:

Healthy blog!

The Blog-Health-o-Meter™ reads Wow.

Crunchy numbers

Featured image

About 3 million people visit the Taj Mahal every year. This blog was viewed about 38,000 times in 2010. If it were the Taj Mahal, it would take about 5 days for that many people to see it.

In 2010, there were 771 new posts, growing the total archive of this blog to 959 posts. There were 886 pictures uploaded, taking up a total of 917mb. That’s about 2 pictures per day.

The busiest day of the year was September 24th with 544 views. The most popular post that day was 我跟著孟子的話.

Where did they come from?

The top referring sites in 2010 were fishandhappiness.blogspot.com, chrisleung1954.blogspot.com, zh-hk.wordpress.com, rucbysq.blogspot.com, and Google Reader.

Some visitors came searching, mostly for 李天命, 陶傑, 親眼看見你, 色书, and 蒸肉餅.

Attractions in 2010

These are the posts and pages that got the most views in 2010.

1

我跟著孟子的話 September 2010
8 comments

2

陶傑還不是陶傑的時候 July 2010
14 comments

3

李天命「少作」的「訛誤」 June 2010
35 comments

4

我的意思,你真的知道嗎 August 2010
29 comments

5

大陸地鐵眾生相 June 2010
6 comments

統計「港孩」

看《統計,讓數字說話!》,已到了我的「極限」。「講」數字的內容開始佔多數,作者如何試著插科打諢,都無法令我頭上那些煙消散多少。這完全是我的問題,與作者無關。

看過的,算是吸收了懂了,就當成老本了。這就吃吃老本,借來談一下近日因不少地方嚴寒引來的話題。

機場與「港孩」。現在才來加把口,多少有點遲了不夠熱了。但涼了有涼了的好,可以「冷」靜點,也較易綜合一些意見。

香港學生因大雪而滯留機場,回不來香港「過冬」,父母憂人忡忡,特區政府幾乎要出動包機接回來,無可否認是「新聞」。我們的政府,常常方寸大亂,因為做決策的人大多是「港孩式」大人,或「港孩式」父母,還是孩子早已成人成才,沒有統計,不敢多說。

還是直接點說說「港孩」這種香港特產。既是「港」孩,當然不可能有A貨,給罵成這個樣子,誰也不願成為A 貨。但性質相似,甚或可以用統計學那種歸類而「製造」數據的方法,有沒有性質相同的「中」孩、「美」孩、「澳」孩、「巴」孩、「德」孩呢?

大概沒有吧,因為似乎沒有人提出過那些名詞。但有類近「港孩」特性的孩子,真的有如洋紫荊一樣,只此一家,世上再無其他地方「出產」?

我有限的接觸和觀察中,確有「港孩」這種香港特產,但似乎不算多。啊,我沒有統計;不過,我大你,有人做過統計,「港孩」佔香港孩童的多少成呢?我想仍未有人敢答。

我代課的學校,只是一間小學,自是只佔全港學童的很小部分,不能成為沒有偏差的統計數據。但我看不到多少學生有嚴重甚或中等而至輕微的「港孩」特性這個事實。

反過來,這些小孩子,由一年級到六年級,上課時吵吵鬧鬧的有的是,不願聽書的有的是,但搶著替老師做事的也有的是。必然要走幾層樓梯將功課簿拿到功課架及取回派發的不用說了,請纓拿其他東西的,也有的是。真的不覺得有多少不知蘋果有核不願執拾書包桌面和課室的「港孩」啊。

身邊也有的是中產家庭的孩子,但年紀小小出外吃飯已很懂得照顧自己的,有的是,還會照顧家中年長或有病的,也大不乏人。坐地鐵不爭位或自動讓位的,也有的是。

各自拿看到的「特殊」情況來做「統計」,我看的這本書一再提醒讀者,要小心這種偏差。其實,中文也有一句成語叫「以偏概全」,都是不該拿來作準的。

機場上的眾生相,透過傳媒,讓「全世界」看到,成為笑柄,好像是天大的事。這些人佔香港人的多少成呢?不如這樣說,在媒體上拿這些現象來大加鞭撻的,似乎大不乏人,或說佔了大多數。可以知道的,這些作出嚴厲批評的人,多是有孩子的,會這樣批評,論「資格」,自是具備了。也因此,這些人,例如陶傑,例如吳志森,例如屈穎妍,等等,他們的孩子,理所當然不可能「煉成」「港孩」的了。寫了《港孩》一書的黃明樂,更不可能「製造」出這種孩子的了。

他們就算不是香港的精英,握著可以左右香港命脈的大權,但也算是身在有利位置,說話受到重視也有影響力,說一個頂十個,大概也不為過。他們「煉」出來的孩子及其子孫,相信不會太少吧,應該是香港的希望了。那麼,香港還怕什麼呢?

我無意替「港孩」及其父母說話。如果我們還留意這幾天的電視新聞片段,就不難看到機場內發出「投訴投訴投訴」的,也有不是香港人不是「港孩」的啊。難道這些「外國人」也給「港孩」傳染了,受不得滯留機場「區區」數十小時之苦。都是成年人了,又不是大災難,嘈乜喎。誰叫你唔好彩,身在其中,卻未能坐在家中看電視看電腦看別人茫茫然在機場在街上而自己哪怕只是過著只吃一口熱飯一碟青菜一片薄牛扒之類的清淡生活呢?

電視上也看到有人投訴紐約這個香港人要學習的大都會,有懶洋洋的剷雪者,甚至有剷雪車剷的是車不是雪,有居民投訴,啊,是投訴啊,投訴紐約市長啊,因為沒有受到重視,似乎有點不當是人的感覺。怎麼了,不都是「外國人」嗎?怎會因為天氣這種無可奈可的小事而投訴這投訴那投訴市長的呢。十足「港孩」父母口面啊。

看看看,紐約人也受不得天氣之苦了;紐約,也不可居了。

我算是做了統計嗎?大誇張了。太多東西都太誇張了。

數字.圖片.文字

《統計,讓數字說話!》(David S. Moore 著,鄭惟厚譯,天下遠見,2009年6月第2版第1刷)第三章講「量度」,提醒了我幾個與數字相關而忽略了的概念,很好。章末最後一句說﹕

如果你養成仔細檢查數字的習慣,你的朋友們很快就會覺得你很有頭腦,而且他們還可能是對的呢。(頁148)

那就怪不得我的朋友都不覺得我很有頭腦了。算了吧。

這章有一個議題﹕數字可以怎樣「詐」我們。它再次提醒我們永遠要問﹕資料怎樣產生的?所度量的確實是什麼?因為有些數字「是事實,但不是全部的事實」;要留心「用意良善」的數字;更要有懷疑的態度,因為有「不可信的數字」、數字彼此之間可能不一致,甚至有些數字可能好得不像真的。(頁140-5)這個也不用我多引述了吧。

不如講講可信數字可以會說些什麼吧。「我們已經習慣於用有點虔敬的態度來對待數字。因為它們看起來那麼可靠,又那麼確實。」(頁136)這樣說,算不算有點賣花讚化香呢?

我們都聽說過,一張好的圖片勝似甚或勝過萬語千言。

統計數字可以說明很多東西。戰爭圖片可以說明很多東西。那麼,文字呢?

一個人倒臥在血泊中,可以說明些什麼呢。如果沒有文字。

再說數字0。「長度0公分就是『沒有長度』,時間0秒是『沒有時間』。但是溫度攝氏0度只是水的冰點,不是『沒有溫度』。」(頁139)

沒有了圖片顯示出來,我們還可以說「有一個人倒臥在血泊中,是敵軍亂槍掃射而死去的」。沒有數字,我們還可以說現在已冷至「冰點」。

不過,有圖片,有數字,再加上文字,就更清楚明白了。

要「詐」,圖片可以假,「古」已有之,於今為烈。製造數字,玩弄數字,可以變出不同的「事實」。當然,文字也可以作假。

沒有哪一樣最真最假最好最差。各有不同的位置不同的作用。公平點好。

數字真要來了

享受了兩章不用與數字多大打交道的甜蜜溫馨時光,終於很怕面對的都要來到眼前了。

拖拖延延,還是要來到《統計,讓數字說話!》(David S. Moore 著,鄭惟厚譯,天下遠見,2009年6月第2版第1刷)的第三章「量度」。Measurement 可以沒有數字嗎。

統計是討論數字的。光是計劃如何利用樣本及實驗來產生數據,並不會自動就產生數字。一旦……(頁122)

我知道我知道。我的「噩夢」要開始了。我當然不會就此放棄啦。睇戲睇全套,看書看全本嘛。才不怕呢,最壞也不過看得昏頭昏腦,又不用考試的。更何況,跟著下來就出現這樣的文字﹕

讓我們繞過大學入學試採用SAT分數的爭論。我們就只量度所有申請者的身高,然後錄取個子最高的學生。餿主意,你一定會這麼說。為什麼呢?因為身高和適不適合讀大學一點關係也沒有。用比較正式一點的語言來說,身高並不是一個學生學業背景的「有效」(valid)量度。(頁125)

「餿主意」,咪即係「屎橋」?呵呵呵。無論怎樣,數字要說話,但數字又不能不靠文字「加把口」說清楚「心裡的話」。更不用怕了。數字正式「隆重」登場,還是要有文字「拍住上」的;何況這本書有的是沒有那麼正式的語言,偶然搞一點笑,輕鬆一下。提神醒腦啊。

來,再來,努力。前進,前進進。