2011-05-26

ERA vs FIP

FIPを算出する目的は、投手本来の能力を見極める為である。
投手の制御下にならない部分を排除し、投手の責任と考えられる部分のみを計算の要素としているのはその為だ。
では能力を見極めてどうするのか?ということであるが、それはその投手の将来を予測する為である。。
つまりFIPは投手の将来の結果を予測する材料として、ERAより優れてなければならない。
言い換えれば、あるシーズンに記録されたERAとFIPそれぞれを、その翌シーズンに記録されたERAと比較した結果、過去のERAが過去のFIPより近い結果であるなら、FIPを算出する意味はない。

一方個々の投手全てにFIPによる予測が有効である必要もない・・・そのような指標があれば理想的ではあるが。
本来、私が示したNPB版FIPの式のそれぞれの係数は、投手個々に変化するものであると個人的には考えている。

例えばホームランの失点価値を1.583に定めているが、これは充分なサンプルサイズが重なった時に、最終的にこの数字に落ち着くであろうという想定となる。
しかしホームランを打たれやすいタイプ(一般的にはフライボールをよく打たれる投手)と打たれづらいタイプでは、自ずと失点価値も変わってくる。
極論になるが、全ての打者にホームランを打たれる投手がいると仮定すると、打たれたホームランは全てソロホームランとなり、つまりホームラン一本当たりの失点価値は1となる。

念のために書いておくが上のような事例はありえず、しかもこのような投手の失点期待値は常に無限大となるので、ホームラン一本の失点価値は計算不能となる。
ただそのような極端な事例を上げてまで何を書きたかったかというと、私が定めた(正確には2005年から2010年までのデータを使って仮定した)係数は、被本塁打、敬遠以外の四死球、奪三振、そしてBIPの機会数それぞれのバランスが平均的な場合に最も効力を発揮するのである。
勿論すべての個々の投手が何千イニング投げたとしても、全投手の平均的なバランスと同じに落ち着くはずもなく、つまり当初からある程度のぶれは想定しているわけで、そのぶれがどの程度あるのかも、FIPを使った選手予測には重要な要素となる。
またそのぶれがERAを使ったものに比べ仮に多かったとしたら、再度書くがFIPを使う意味は失われる。

前置きはこのくらいにして、実際に05年から10年までの投手の結果でERAとFIPを比較した。
ちなみに以下で出てくる”全投手”とは、2年以上連続して投球し、ワンアウト以上獲得できた全ての投手の意味である。
のべ人数は1078人であった。

※翌シーズンを予測する元となるデータ
2005年から2009年までの全投手ERA・・・3.68
2005年から2009年までの全投手FIP・・・3.65

※結果
2006年から2010年までの全投手ERA・・・3.70
結果から予測元をマイナスすると・・・
ERA・・・0.02
FIP・・・0.05
となりERAがより近い結果となったが、肝心なのは次である。

のべ1078人全員に対し結果マイナス予測元の計算を行い標準偏差によりぶれを求めた。
ERA・・・4.42
FIP・・・3.96

わかりやすく解釈して書くと・・・
あるシーズンERAが5.00であった投手の翌年のERAは・・・
・ERAを元に考えると、4.98プラスマイナス4.42(0.56~9.40)の枠内に7割弱程度の確率で収まるであろう。
・FIPを元に考えると、4.95プラスマイナス3.96(0.99~8.91)の枠内に7割弱程度の確率で収まるであろう。
と予測される。
参考URL

ワンアウト以上獲得した投手全てを対象にした検証でERAが異常に高い数字も含まれており、平均から標準偏差を引いた結果がマイナスとなる現実にはあり得ない結果となっているが、条件は両者とも同じであり、この条件で実用に耐えられるかどうかは別として、FIPを元に予測した方法が効力がありそうである。

それでは今度は、同じく2年連続以上投げた投手を対象に、両年ともに最低100打者以上と対戦した投手を限定して検証する。
のべ人数は601人。
2005年から2009年までの対象全投手ERA・・・3.54
2005年から2009年までの対象全投手FIP・・・3.55
結果
2006年から2010年までの対象全投手ERA・・・3.57
ぶれ
ERA・・・1.06
FIP・・・0.90
ERA5.00であった投手での解釈
・ERAを元に考えると、4.97プラスマイナス1.06(3.91~6.03)の枠内に7割弱程度の確率で収まるであろう。
・FIPを元に考えると、4.98プラスマイナス0.90(4.08~5.88)の枠内に7割弱程度の確率で収まるであろう。

とりあえず今回はここまで。
次回は別な検証でERAとFIPを比較してみる。


2011-05-10

5月9日現在投手データ

全投手基本データ
全投手アドバンスドデータ
全投手実験データ

一定(ほぼ規定)イニング数到達投手基本データ
一定(ほぼ規定)イニング数到達投手アドバンスドデータ
一定(ほぼ規定)イニング数到達投手実験データ


データ取り扱い説明

ポリシー:ごく一般的に紹介されるデータを用い、それに加工をすること。

データ元:NPB公式サイト

データ期間:表中の項目”Date”の5桁の数字は、エクセルにおいてダウンロードした日付を数字化したもの。
基本的に開幕日よりその日付までの区間となるが、NPBがその時点でタイムリーに更新しているかは不明。

データ種別:
① 期間中に一度でも登板し、NPB公式サイトの記録に載った全投手分と、そこから抜粋した一定以上の量をこなした投手分の二種。
全投手分はall、抜粋分はqualと名づけている。
一定以上の量とは規定投球回数を意識したものであるがイコールではない。

※ダウンロード日から開幕日を引いた日数を1.27で割り、さらにそれに0.9を掛けて算出された数字を基準イニングとしている。

② ①の二種のデータをそれぞれ基本データ(bas)、アドバンスド(adv)、実験的データ(lab)の三種に分けている。
それぞれの詳細については別項参照のこと。

基本データについて:
特に説明の必要はないと思われるが、項目"IN"は投球回数のこと。
その右隣もそのパーツの一つでアウト数である。

アドバンスドデータ:
基本データを用いて計算したもの。
FIPは前エントリーの計算方法で求めたもの。
E-Fは、防御率からそのFIPを引いたものである。
E-Fの考え方については別エントリーに譲る。
HR+BB/SOの計算方法は、ほぼこの式の通りで(ホームラン数+与四球数)÷奪三振数である。
K/BBの不具合点を補足するために筆者が考案したものであるが、まだ詳しく検証をしていないのでその効能についてはまだ把握できていない。
ちなみに2005年から2010年までの平均値は0.545で、数字が低いほど優秀と考えられる。

実験的データ:
前項のHR+BB/SOのように、今後検証を進めていきたいパートである。
頭に小文字のpがついているものは、筆者が今季のプロジェクションとして計算したものである。

項目"E-pF"は現在の防御率とプロジェクションしたFIPの差ではなく、プロジェクションした防御率とのそれである。

"F-pF"は現在のFIPとプロジェクションのFIPとの差である。

"xFIP"はTHTやファングラフ等のそれとは計算方法が違う。
本来、ホームランとフライボールとのレートから、想定の被ホームランを計算し、そこからxFIPを算出するのだが、被フライボール数は一般的なデータにはない。
従って当サイトでは先ほどのレートと相関が高い(R二乗で0.6以上)、被本塁打÷被安打から算出した。

以上簡単ではあるが説明はここまで。
まだまだ説明必要であるが、今後のエントリーに織り交ぜていくこととする。






2011-05-04

日本版FIP

FIP(Fielding-Indpendent Pitching)は、代表的なセイバーメトリシャンの一人であるTangotiger氏が開発した味方の守備能力等の影響を外した投手の評価軸である。
同様の趣旨で開発されたものとしてDIPSもあるが、計算式が複雑な上、要素も多岐に渡り、広く知られている一般的なデータからは計算不可である。
その点、FIPは式の要素として必要なものはホームラン、四死球、三振のみで、公開データが少ない日本の野球でも公式さえ知っていれば計算可能だ。

しかし重要な問題点としてはTangotiger氏が提唱した公式の係数はそのままNPBでは使えないということである。
当然のことであるが、Tangotiger氏のFIPはMLBのデータを元にしているわけで、FIPをそのまま日本で使うためには、NPBでのそれぞれの成績が失点に対してMLBでの場合と同じ影響力があるという大前提が必要になる。
しかしながら回帰分析などで調べるとわずかながら相違していることは明らかで、従ってFIPの係数(ホームランは13、四死球は3、三振はマイナス2)もNPBに応用する場合当然変わってくるであろう。

そしてもう一つの問題はFIPの式で最後に加える3.2(或いは3.12)である。
この3.2の由来についてはこのサイトを参照していただくとして、実際のところ便宜上3.2を使っていると考えても差し支えないように思う。
この数字の精度はともかく、その性格上NPB独自の数字があるはずと考えるのが自然であろう。

残念ながら元祖のように単純明快な公式にはならなかったが、日本版FIPを以下のように考えた。

(1.583 x HR + 0.443 x (BB-IBB+HBP) - 0.083 x SO + 0.057 x BIP) ÷ IP x 9

これは単純にNPBの過去6年の回帰分析の結果である。
BIPは正確な数字は一般的なデータ表からは算出不可なので、便宜上(TBF-BB-HBP) x 0.979 - SOで求めた。
0.979は犠打が全体で打席数に対して2.1%であったことから導かれた。
いずれにしろ上の式はプロトタイプであるので、今後開発の余地はかなりあることは言うまでもない。

次回はこのプロトタイプを使って、開幕して一ヶ月になろうとしているNPB各投手の状況を探ってみたいと思う。

このエントリーの最後になるがFIPも含めたDEFENSE INDIPENDENT系の数字の今後について少し考えてみたい。

いずれの数字もBIPの結果は公平であると言う前提に成り立っている。
しかしながらTangotiger氏が自ら書いている通り、打者を圧倒するようなタイプ、特にリリーフ投手のERAはFIPの結果より良いものなり易く、それはとどのつまり、BIPの結果の誤差によるものである。
例えばMariano RiveraのERAはここ10年の内FIPよりも悪かったのは2シーズンのみで、他の8シーズンははっきり上回っている。
また日本でも阪神の藤川或いは先発ではあるがダルビッシュなどはMOと同様の傾向を見せている。

BIPAの変動は運によるものと考えられているが、再現性の低さを考えると恐らくそれも正解ではあろう。
また味方の守備能力の要素も明らかに含まれ、それらによって見づらくはなっているが、MOや藤川、或いはダルビッシュなどの例を考えると投手自身のキャラクターが関わる要素もありそうではある。
これを明確にする為には、打たれた打球のスピード測定が重要になってくるのではないか?

現在はtERAのように、フライやゴロなどの打球の種類から導かれている数字もあるが、打球速度を考慮した投手の評価軸は皆無である。
Dewanのプラスマイナスシステムには要素として含まれているようではあるので、投手に応用されるのは時間の問題なのかもしれない。
もし実現されるとなると、アイテムが増えることによるサンプル数の問題はあるだろうが、投手ばかりでなく、打者のキャラクターをより鮮明にできるものと期待している。