就這些數據本身而言,這些相關性很少被利用。即使選手在春訓跟例行賽的這些外圍數據很類似,因為無法衡量之前的表現,春訓的數據可能無法提供額外的資訊。為了在春訓開始前,就先將對選手的認識囊括在內,我轉向使用ZiPS(棒球統計預測值),這是一種用來預測球員表現的計量模型。因為ZiPS以準確性聞名,又可在網路免費取得,算是建立了一個強大的基礎。如果不管春訓數據的缺陷性,把春訓數據加進去後,會讓ZiPS的預測結果更準確嗎?

答案是明確的「會」。在所有外圍數據的項目中,加上春訓數據後的ZiPS預測,都比只有單純的ZiPS預測準確。尤其拿來看菜鳥球員(春訓是他們首次大聯盟級的競爭)的數據,影響更是明顯。把這些外圍數據放在一起,成為一個新的衡量方法後,配合春訓的數據,將可讓季前對打者預測的相關性,從.578進步到.593(用整體攻擊指數OPS來看),對投手預測的相關性,從.354進步到.387(用防禦率來看)。

這可能聽起來只是個小收穫。但在隱晦難懂(譯按:原文用angels-on-the-head-of-a-pin,典故出於中世紀的方法論問題。問說一根針上面能有多少隻天使在跳舞呢?既然天使沒有形體,不佔空間,祂們就可於同個時間內在針上跳舞。後來被比喻為艱澀、仰賴炒作智識的議題)的棒球預測世界裡,這可是件大事。如果兩位球員在季前的預測數字相同,春訓數據的差異,會讓他們OPS或防禦率的預期值差到.06 — 這樣的差距,在自由市場的薪資差異會超過一年一千萬美金。

換個方法來說,預測數字最受惠於春訓表現的的2%打者,ZiPS預測他們整體在球季平均OPS將會是.709,但他們的實際表現是.746;相反地,預測數字最受春訓表現傷害的2%打者,原本平均OPS的預測是.764,但最後只有.739。在投手方面也一樣。預測數字最受惠於春訓表現的2%投手,原本被預測的平均防禦率是4.35,但最後平均表現是4.01;而那些預測數字最受春訓比賽傷害的2%投手,原本預測的防禦率是3.96,但季末結算時攀升到4.21。所以如果下次當你提到哪個選手在春訓表現很好,又有哪位全都懂專家(這些吹牛專家幾乎不可避免地都是男性)對你白眼時,記得跟他對賭。

我並不想誇大這項發現的重要性。發現春訓數據的確可讓某些預測更準確,並不會對這項運動造成革命性的影響。這項發現,充其量讓某些球隊願意給一小撮有希望的球員一個機會(原本沒有)。但在春訓數據的這個議題上,錯誤共識的快速傳播,讓現在的運動分析生態環境中,對這個議題的討論非常固化。

第一代的棒球統計專家 — 從或多或少建立此規則的Bill James,到電影「魔球」中,布萊德彼特旁邊的那位神童 — 喜愛反駁那些數十年來,由球員、球探、教練所背誦的傳統觀念。當然,他們做出了一些具有價值的貢獻:比如說,他們正確地指出90年代的大聯盟球隊,低估了上壘率的價值,他們也持續正確地批評,那些在平手時卻不派上最佳中繼投手的教練。

但他們也有幾個失誤。他們說球隊高估了防守的價值;他們說不從大學,而從高中挑球員,太過冒險;他們說投手無法引導出軟弱的揮擊;他們說捕手對投手沒有甚麼重要影響;當然,他們也說春訓數據不重要 — 任何持反對意見的人, 會被認為是棒球石器時代的山頂洞人。在隨後的幾年中,隨著研究者獲得更豐富、細緻的資料庫,這些說法都被淡化或直接駁斥了。備受嘲笑的「傳統派」,起碼至少有部份始終都是對的;那些「在老媽家地下室的怪胎」,在缺乏足夠資料來偵測靠棒球吃飯的人的情況下,進行計量分析,永遠只能看到自己想看的。

這樣的翻轉動作,應該能給那些聲稱「自己懂的比實際從事那項運動的人多」的研究者一點警訊。一個常犯的錯誤,是過度詮釋了拒絕虛無假設(null hypothesis)的錯誤:如倫斯斐(Ronald Rumsfeld,前國防部長)常說的,沒有證據不代表證據不存在。90年世代缺少統計工具,來檢測投手對比賽、或捕手對主審判好壞球的影響,並且錯誤地宣稱(至少是很強力地暗示),那些他們看不到的事情,就表示不存在。而當數據看起來會跟現存的理論、觀念牴觸時,又會過度的謙卑(統計學貝氏定理中的先驗機率) — 就像無論昨天的春訓比賽數據有多不可靠,在所有其他數據產生的時間,都至少在六個月前的情況下,至少可以提供某些有用的資訊吧,這是完全合邏輯的推斷。否則你就得像漫畫裡面的人一樣,冒著相信太陽已經爆炸的風險,即使你可以清楚地看到並沒有*。

*(譯按:這是有關統計學裡面,貝葉斯派與頻率論派在機率觀念上的對立)

原文
創作者介紹
創作者 mlkj24 的頭像
mlkj24

mlkj24

mlkj24 發表在 痞客邦 留言(2) 人氣()