【Open Data釋出和官網更新】台灣棒球原始數據共享計畫

大家好,我是野革的工程師 LiHsuan。中華職棒上半季在這週二順利結束,週五下半季緊接著要正式展開,今年充滿話題的選秀會所入選的球員們,也準備好在各位球迷們面前亮相。我們野球革命也會像是新秀登場一樣,陸續推出新的功能出來。下面條列式列出三大重點,球迷們可以挑選有興趣的項目點選進行快速導覽:

Open Data 釋出

首先,想帶來一個令人興奮的消息,就是我們準備好的 Open Data 終於釋出在 Github 上面了!目前釋出的資料為 2023 年上半季的比賽資料,我們使用的資料使用規範是 ODC-By License,基本上的意思是在標註來源的情況下,可以任意使用數據。

目前推出的資料結構如下:

  • game:比賽相關資訊
  • batterBox:打者成績
  • pitcherBox:投手成績
  • PA:打席內容
  • event:事件(投球, 盜壘等)
  • runner:跑者

這些資料會用一個壓縮檔包裝,裡面分別為一次含有所有場次比賽的 JSON 檔和以各比賽場次切分的 180 個 JSON 檔。(何謂 JSON 檔可以參考:JSON – 維基百科,自由的百科全書 (wikipedia.org)

Open Data 資料結構

更多詳細資訊可以前往我們的 Github 頁面:rebas-tw/rebas.tw-open-data: 台灣棒球進階資料庫|原始數據共享計劃 (github.com)

如果有任何使用上的問題,歡迎上 Github 開 issue 或是私訊 FB 官方粉專。

新數據更新

由於去年我們開始記錄逐球資料,所以今年上半季我們推出了許多根據去年 2023 年中華職棒資料的新數據統計,我們也有撰寫文章去做各項的介紹,這邊就整理出目前我們今年更新的新數據內容,幫大家複習一下(順序為新到舊):

劇場指數(Drama Index)

以張力指數(Leverage Index)的概念為基礎,由我們野革團隊新計算出的新數據指標,目的是希望了解各情境下的緊張程度,達到以後可以分析球員在該情境下的表現。顯示劇場指數前十名情境排行,會根據局數、出局數、壘包狀況以及分差的情境來顯示。會員的話可以查詢各情境下發生的打席,以及該情境與其他類似情境下的劇場指數差別。

九下兩出局其他情境 DI
投手 WAR

計算選手價值的進階指標,目前廣泛地被大聯盟使用,野革參考國外的網站對中職投手進行計算,獲得 2023 年的投手 WAR 排行榜前五名。如果是會員的話可以看到完整排行,並可以進行排序及球員姓名搜尋。

2023 年投手 WAR 前十
捕手 Framing
捕手 Pop Time

一直以來都是衡量打者與投手的數據為主,而 Framing 和 Pop Time 則是能顯現出捕手技能的數據,自從有了逐球紀錄,我們便能計算出這兩項指標,讓球迷對於捕手能力的討論能有更多的依據進行討論。官網顯示 2023 年 各項的前五名,如果是會員的話,可以查看完整排行以及排序。

捕手 Pop Time 前五
捕手 Framing 前五

RZone 更新

在 5 月份,我們針對球員頁面的 RZone 進壘點圖進行更新,現在使用者可以利用拉 Bar 自由選擇要看各球的進壘點位置或是使用熱力圖的方式顯示進壘點熱區,並且這次新增所有球的項目,讓使用者能查看所有的進壘點位置組合。

各拉 Bar 顯示程度差異圖

此外,在進壘點圖可以發現有些進壘點的顯示比較大一顆,那就代表著那一顆球是有附上影片的,使用者點選後就會顯示該球的影片。影片來源都是中職的 Highlight,所以並不會每一顆球都會有,還請見諒。

小結

這次最主要的主題是關於 Open Data 的釋出,十分期待各位如何使用這些資料做出怎麼樣令人驚豔的分析,期盼藉此能讓更多人一起參與討論。另外宣傳一下,第二次數據競賽也在最近開始進行,想知道更多詳情可以透過以下連結參與:

「第二屆台灣棒球數據分析競賽」簡章

以上是這次更新的內容,感謝各位耐心地閱讀,希望大家喜歡這次的更新。如果有任何使用上的問題或是其他建議,都歡迎到我們的官方 FB 粉專留言或是寫 E-mail 告知我們。也歡迎各位訂閱我們網站支持我們以及獲更多會員相關回饋:

野球革命|台灣唯一職棒數據 X 報導訂閱計畫 | WaBay 挖貝 | 台灣最值得信賴的群眾集資 / 群眾募資平台

發佈留言
Scroll to Top