P.S.B.A.BLOG
主に野球に関して、データ等を使用しながら考えていくブログ。 タイトルの頭文字のPはPseudoであるが、最終的にはこれを取り外しても恥ずかしくないレベルの解説を目指す。
2011-06-19
2011-06-09
2011-06-03
2011-05-26
ERA vs FIP
FIPを算出する目的は、投手本来の能力を見極める為である。
投手の制御下にならない部分を排除し、投手の責任と考えられる部分のみを計算の要素としているのはその為だ。
では能力を見極めてどうするのか?ということであるが、それはその投手の将来を予測する為である。。
つまりFIPは投手の将来の結果を予測する材料として、ERAより優れてなければならない。
言い換えれば、あるシーズンに記録されたERAとFIPそれぞれを、その翌シーズンに記録されたERAと比較した結果、過去のERAが過去のFIPより近い結果であるなら、FIPを算出する意味はない。
一方個々の投手全てにFIPによる予測が有効である必要もない・・・そのような指標があれば理想的ではあるが。
本来、私が示したNPB版FIPの式のそれぞれの係数は、投手個々に変化するものであると個人的には考えている。
例えばホームランの失点価値を1.583に定めているが、これは充分なサンプルサイズが重なった時に、最終的にこの数字に落ち着くであろうという想定となる。
しかしホームランを打たれやすいタイプ(一般的にはフライボールをよく打たれる投手)と打たれづらいタイプでは、自ずと失点価値も変わってくる。
極論になるが、全ての打者にホームランを打たれる投手がいると仮定すると、打たれたホームランは全てソロホームランとなり、つまりホームラン一本当たりの失点価値は1となる。
念のために書いておくが上のような事例はありえず、しかもこのような投手の失点期待値は常に無限大となるので、ホームラン一本の失点価値は計算不能となる。
ただそのような極端な事例を上げてまで何を書きたかったかというと、私が定めた(正確には2005年から2010年までのデータを使って仮定した)係数は、被本塁打、敬遠以外の四死球、奪三振、そしてBIPの機会数それぞれのバランスが平均的な場合に最も効力を発揮するのである。
勿論すべての個々の投手が何千イニング投げたとしても、全投手の平均的なバランスと同じに落ち着くはずもなく、つまり当初からある程度のぶれは想定しているわけで、そのぶれがどの程度あるのかも、FIPを使った選手予測には重要な要素となる。
またそのぶれがERAを使ったものに比べ仮に多かったとしたら、再度書くがFIPを使う意味は失われる。
前置きはこのくらいにして、実際に05年から10年までの投手の結果でERAとFIPを比較した。
ちなみに以下で出てくる”全投手”とは、2年以上連続して投球し、ワンアウト以上獲得できた全ての投手の意味である。
のべ人数は1078人であった。
※翌シーズンを予測する元となるデータ
2005年から2009年までの全投手ERA・・・3.68
2005年から2009年までの全投手FIP・・・3.65
※結果
2006年から2010年までの全投手ERA・・・3.70
結果から予測元をマイナスすると・・・
ERA・・・0.02
FIP・・・0.05
となりERAがより近い結果となったが、肝心なのは次である。
のべ1078人全員に対し結果マイナス予測元の計算を行い標準偏差によりぶれを求めた。
ERA・・・4.42
FIP・・・3.96
わかりやすく解釈して書くと・・・
あるシーズンERAが5.00であった投手の翌年のERAは・・・
・ERAを元に考えると、4.98プラスマイナス4.42(0.56~9.40)の枠内に7割弱程度の確率で収まるであろう。
・FIPを元に考えると、4.95プラスマイナス3.96(0.99~8.91)の枠内に7割弱程度の確率で収まるであろう。
と予測される。
※参考URL
ワンアウト以上獲得した投手全てを対象にした検証でERAが異常に高い数字も含まれており、平均から標準偏差を引いた結果がマイナスとなる現実にはあり得ない結果となっているが、条件は両者とも同じであり、この条件で実用に耐えられるかどうかは別として、FIPを元に予測した方法が効力がありそうである。
それでは今度は、同じく2年連続以上投げた投手を対象に、両年ともに最低100打者以上と対戦した投手を限定して検証する。
のべ人数は601人。
2005年から2009年までの対象全投手ERA・・・3.54
2005年から2009年までの対象全投手FIP・・・3.55
結果
2006年から2010年までの対象全投手ERA・・・3.57
ぶれ
ERA・・・1.06
FIP・・・0.90
ERA5.00であった投手での解釈
・ERAを元に考えると、4.97プラスマイナス1.06(3.91~6.03)の枠内に7割弱程度の確率で収まるであろう。
・FIPを元に考えると、4.98プラスマイナス0.90(4.08~5.88)の枠内に7割弱程度の確率で収まるであろう。
とりあえず今回はここまで。
次回は別な検証でERAとFIPを比較してみる。
投手の制御下にならない部分を排除し、投手の責任と考えられる部分のみを計算の要素としているのはその為だ。
では能力を見極めてどうするのか?ということであるが、それはその投手の将来を予測する為である。。
つまりFIPは投手の将来の結果を予測する材料として、ERAより優れてなければならない。
言い換えれば、あるシーズンに記録されたERAとFIPそれぞれを、その翌シーズンに記録されたERAと比較した結果、過去のERAが過去のFIPより近い結果であるなら、FIPを算出する意味はない。
一方個々の投手全てにFIPによる予測が有効である必要もない・・・そのような指標があれば理想的ではあるが。
本来、私が示したNPB版FIPの式のそれぞれの係数は、投手個々に変化するものであると個人的には考えている。
例えばホームランの失点価値を1.583に定めているが、これは充分なサンプルサイズが重なった時に、最終的にこの数字に落ち着くであろうという想定となる。
しかしホームランを打たれやすいタイプ(一般的にはフライボールをよく打たれる投手)と打たれづらいタイプでは、自ずと失点価値も変わってくる。
極論になるが、全ての打者にホームランを打たれる投手がいると仮定すると、打たれたホームランは全てソロホームランとなり、つまりホームラン一本当たりの失点価値は1となる。
念のために書いておくが上のような事例はありえず、しかもこのような投手の失点期待値は常に無限大となるので、ホームラン一本の失点価値は計算不能となる。
ただそのような極端な事例を上げてまで何を書きたかったかというと、私が定めた(正確には2005年から2010年までのデータを使って仮定した)係数は、被本塁打、敬遠以外の四死球、奪三振、そしてBIPの機会数それぞれのバランスが平均的な場合に最も効力を発揮するのである。
勿論すべての個々の投手が何千イニング投げたとしても、全投手の平均的なバランスと同じに落ち着くはずもなく、つまり当初からある程度のぶれは想定しているわけで、そのぶれがどの程度あるのかも、FIPを使った選手予測には重要な要素となる。
またそのぶれがERAを使ったものに比べ仮に多かったとしたら、再度書くがFIPを使う意味は失われる。
前置きはこのくらいにして、実際に05年から10年までの投手の結果でERAとFIPを比較した。
ちなみに以下で出てくる”全投手”とは、2年以上連続して投球し、ワンアウト以上獲得できた全ての投手の意味である。
のべ人数は1078人であった。
※翌シーズンを予測する元となるデータ
2005年から2009年までの全投手ERA・・・3.68
2005年から2009年までの全投手FIP・・・3.65
※結果
2006年から2010年までの全投手ERA・・・3.70
結果から予測元をマイナスすると・・・
ERA・・・0.02
FIP・・・0.05
となりERAがより近い結果となったが、肝心なのは次である。
のべ1078人全員に対し結果マイナス予測元の計算を行い標準偏差によりぶれを求めた。
ERA・・・4.42
FIP・・・3.96
わかりやすく解釈して書くと・・・
あるシーズンERAが5.00であった投手の翌年のERAは・・・
・ERAを元に考えると、4.98プラスマイナス4.42(0.56~9.40)の枠内に7割弱程度の確率で収まるであろう。
・FIPを元に考えると、4.95プラスマイナス3.96(0.99~8.91)の枠内に7割弱程度の確率で収まるであろう。
と予測される。
※参考URL
ワンアウト以上獲得した投手全てを対象にした検証でERAが異常に高い数字も含まれており、平均から標準偏差を引いた結果がマイナスとなる現実にはあり得ない結果となっているが、条件は両者とも同じであり、この条件で実用に耐えられるかどうかは別として、FIPを元に予測した方法が効力がありそうである。
それでは今度は、同じく2年連続以上投げた投手を対象に、両年ともに最低100打者以上と対戦した投手を限定して検証する。
のべ人数は601人。
2005年から2009年までの対象全投手ERA・・・3.54
2005年から2009年までの対象全投手FIP・・・3.55
結果
2006年から2010年までの対象全投手ERA・・・3.57
ぶれ
ERA・・・1.06
FIP・・・0.90
ERA5.00であった投手での解釈
・ERAを元に考えると、4.97プラスマイナス1.06(3.91~6.03)の枠内に7割弱程度の確率で収まるであろう。
・FIPを元に考えると、4.98プラスマイナス0.90(4.08~5.88)の枠内に7割弱程度の確率で収まるであろう。
とりあえず今回はここまで。
次回は別な検証でERAとFIPを比較してみる。
2011-05-24
2011-05-17
2011-05-10
5月9日現在投手データ
全投手基本データ
全投手アドバンスドデータ
全投手実験データ
一定(ほぼ規定)イニング数到達投手基本データ
一定(ほぼ規定)イニング数到達投手アドバンスドデータ
一定(ほぼ規定)イニング数到達投手実験データ
データ取り扱い説明
ポリシー:ごく一般的に紹介されるデータを用い、それに加工をすること。
データ元:NPB公式サイト
データ期間:表中の項目”Date”の5桁の数字は、エクセルにおいてダウンロードした日付を数字化したもの。
基本的に開幕日よりその日付までの区間となるが、NPBがその時点でタイムリーに更新しているかは不明。
データ種別:
① 期間中に一度でも登板し、NPB公式サイトの記録に載った全投手分と、そこから抜粋した一定以上の量をこなした投手分の二種。
全投手分はall、抜粋分はqualと名づけている。
一定以上の量とは規定投球回数を意識したものであるがイコールではない。
※ダウンロード日から開幕日を引いた日数を1.27で割り、さらにそれに0.9を掛けて算出された数字を基準イニングとしている。
② ①の二種のデータをそれぞれ基本データ(bas)、アドバンスド(adv)、実験的データ(lab)の三種に分けている。
それぞれの詳細については別項参照のこと。
基本データについて:
特に説明の必要はないと思われるが、項目"IN"は投球回数のこと。
その右隣もそのパーツの一つでアウト数である。
アドバンスドデータ:
基本データを用いて計算したもの。
FIPは前エントリーの計算方法で求めたもの。
E-Fは、防御率からそのFIPを引いたものである。
E-Fの考え方については別エントリーに譲る。
HR+BB/SOの計算方法は、ほぼこの式の通りで(ホームラン数+与四球数)÷奪三振数である。
K/BBの不具合点を補足するために筆者が考案したものであるが、まだ詳しく検証をしていないのでその効能についてはまだ把握できていない。
ちなみに2005年から2010年までの平均値は0.545で、数字が低いほど優秀と考えられる。
実験的データ:
前項のHR+BB/SOのように、今後検証を進めていきたいパートである。
頭に小文字のpがついているものは、筆者が今季のプロジェクションとして計算したものである。
項目"E-pF"は現在の防御率とプロジェクションしたFIPの差ではなく、プロジェクションした防御率とのそれである。
"F-pF"は現在のFIPとプロジェクションのFIPとの差である。
"xFIP"はTHTやファングラフ等のそれとは計算方法が違う。
本来、ホームランとフライボールとのレートから、想定の被ホームランを計算し、そこからxFIPを算出するのだが、被フライボール数は一般的なデータにはない。
従って当サイトでは先ほどのレートと相関が高い(R二乗で0.6以上)、被本塁打÷被安打から算出した。
以上簡単ではあるが説明はここまで。
まだまだ説明必要であるが、今後のエントリーに織り交ぜていくこととする。
全投手アドバンスドデータ
全投手実験データ
一定(ほぼ規定)イニング数到達投手基本データ
一定(ほぼ規定)イニング数到達投手アドバンスドデータ
一定(ほぼ規定)イニング数到達投手実験データ
データ取り扱い説明
ポリシー:ごく一般的に紹介されるデータを用い、それに加工をすること。
データ元:NPB公式サイト
データ期間:表中の項目”Date”の5桁の数字は、エクセルにおいてダウンロードした日付を数字化したもの。
基本的に開幕日よりその日付までの区間となるが、NPBがその時点でタイムリーに更新しているかは不明。
データ種別:
① 期間中に一度でも登板し、NPB公式サイトの記録に載った全投手分と、そこから抜粋した一定以上の量をこなした投手分の二種。
全投手分はall、抜粋分はqualと名づけている。
一定以上の量とは規定投球回数を意識したものであるがイコールではない。
※ダウンロード日から開幕日を引いた日数を1.27で割り、さらにそれに0.9を掛けて算出された数字を基準イニングとしている。
② ①の二種のデータをそれぞれ基本データ(bas)、アドバンスド(adv)、実験的データ(lab)の三種に分けている。
それぞれの詳細については別項参照のこと。
基本データについて:
特に説明の必要はないと思われるが、項目"IN"は投球回数のこと。
その右隣もそのパーツの一つでアウト数である。
アドバンスドデータ:
基本データを用いて計算したもの。
FIPは前エントリーの計算方法で求めたもの。
E-Fは、防御率からそのFIPを引いたものである。
E-Fの考え方については別エントリーに譲る。
HR+BB/SOの計算方法は、ほぼこの式の通りで(ホームラン数+与四球数)÷奪三振数である。
K/BBの不具合点を補足するために筆者が考案したものであるが、まだ詳しく検証をしていないのでその効能についてはまだ把握できていない。
ちなみに2005年から2010年までの平均値は0.545で、数字が低いほど優秀と考えられる。
実験的データ:
前項のHR+BB/SOのように、今後検証を進めていきたいパートである。
頭に小文字のpがついているものは、筆者が今季のプロジェクションとして計算したものである。
項目"E-pF"は現在の防御率とプロジェクションしたFIPの差ではなく、プロジェクションした防御率とのそれである。
"F-pF"は現在のFIPとプロジェクションのFIPとの差である。
"xFIP"はTHTやファングラフ等のそれとは計算方法が違う。
本来、ホームランとフライボールとのレートから、想定の被ホームランを計算し、そこからxFIPを算出するのだが、被フライボール数は一般的なデータにはない。
従って当サイトでは先ほどのレートと相関が高い(R二乗で0.6以上)、被本塁打÷被安打から算出した。
以上簡単ではあるが説明はここまで。
まだまだ説明必要であるが、今後のエントリーに織り交ぜていくこととする。
登録:
投稿 (Atom)