close
Economist Mar 4th 2015
美國東北部仍在下雪,不過兩個季節交換的儀式已在3月3日開始了。其一是為棒球季打開序幕,在佛羅里達州、亞歷桑那州兩地,展開為期一個月之久的春訓。但沒有改變的是,伴隨著歡迎球棒清脆聲響(譯按:原文用的是crack of the bat,在棒球術語中,指的是「球棒接觸到球的那瞬間」,經濟學人這句話有雙關意)的,是一些棒球統計學家的推特或部落格,先發制人地想打消某些天真球迷(對春訓比賽)的有害觀念。這個觀念是,這些春訓比賽中,可能藏有一滴滴的有用資訊。
棒球統計的各領域裡,很少比「春訓數據無用論」,更能取得棒球計量學家的共鳴了,因為選手在這個階段基本上只是練練生鏽的身手,恢復身材,而不是試著贏球。Baseball Prospectus的Joe Sheehan曾在2008年寫說「春訓數據是沒有意義的」。Fangraphs的Dave Cameron在2010年,再度重申了這個觀念。「每年三月最要記在心上的」,就是「春訓數字不代表任何事。」自那時起,這樣的傳統觀念就沒有被撼動過。的確,那些沒辦法真正下場打球的球迷,他們找到一個最惡劣的例子,就是那些「處在人生最佳狀態」,在春訓時把球猛力揮擊到變形的大聯盟選手,等到例行賽真正開始時又無可避免地原形畢露。
毫無疑問,春訓的對決跟真正的棒球比賽天差地遠。半數春訓比賽舉辦的地點在海拔高、又乾燥的亞歷桑那,這種情況下球很容易飛出場;另一半的比賽則在靠海、潮濕的佛羅里達,溼氣重會讓可能的全壘打,變成毫無殺傷力的外野飛球。而球員的狀況也大有不同:有些在休賽期間釣魚、做日光浴,而有些人卻去拉丁美洲的冬季聯盟打拼,以球季中的狀況現身。投手通常會用春訓來試驗新球路;有些球員拿來練新的守備位置。而競爭強度也差很多,從菜味十足的年輕新星,到已經養成的超級球星都有。而春訓的時間,也沒有長到能讓表現穩健輸出:通常一位打者僅會有50-100個打席,投手也僅面對50-100位打者,跟正常球季一位打者有600個打席、投手要面對800位打者比起來,只是很小的一部分。
但即使有這些變數,認為春訓數字無用的說法,是錯誤的。不是只有一點錯,也不是可爭論的錯誤 — 而是毫無疑問、決定性的錯誤。可以肯定的是,這些數據會很雜亂。但它們仍傳達了某種訊號。2月27日、28日於波士頓舉行的MIT史隆商學院運動數據分析研討會上,我發表了一份研究,解釋要如何從煩雜的資料庫中,萃取出黃金;也上了幾堂課,讓這個例子可在體育計量研究上,更能夠被廣泛地使用。
很容易看出,為何春訓數據無用論,會有如此高的共識。在最常被引用的幾個項目中,比如說打擊率或是防禦率,春訓數據跟當年度例行賽數據的相關性,是難以察覺地弱:三月春訓時在排行榜領先的選手,只有很小一部分還能在六個月後真正的排行榜上獨領風騷。但在這些項目上,本季例行賽跟次季例行賽成績的相關性,也沒高多少:當某年的打擊王在隔年度的打擊率只有聯盟平均時(比如說Chipper Jones在2008年的打擊率高達.364,但隔年僅有普通的.264),或是投手在某年ERA+領先(如2011年的Roy Halladay),卻在隔年連解決打者都很困難時,並沒有甚麼人會感到驚訝。這就是棒球。(提供一個資訊給在意定量化的讀者,2013至14年間,符合資格的選手,在統計學上連續兩年度的表現相關性來說,防禦率是.25、打擊率則是.4。統計學家間一個古老的笑話是這樣說的,「這個世界的相關性是.3」:意指這樣微弱的相關性並沒有甚麼意義。)
對於這些數據的預測能力之低,有很好的解釋。打擊率會因為打者把球擊到防守者正前面,或防守者的空檔間,而天差地遠 — 凱文科斯納在電影「百萬金臂」中的角色,就是說明這個現象的好例子。而防禦率主要是看一名投手,是否會被連續擊出八支安打,或是在整場比賽中,以安全的間隔解決打者。但棒球總是提供了許多另外的數據,來反映球員的真正的技巧,比如說他們被三振、四壞的頻率,或是他們擊中(被擊中)的球,是在天空飛還是在地上滾。這些「外圍」數據(peripheral statistics),會比較快就穩定下來:以2013-14年打者三振數的年間相關性來看,高達.9。也很可以確定,春訓跟當季例行賽的這些數據有高度相關性。
(繼續閱讀)
全站熱搜
留言列表