2024年11月4日月曜日

競馬のデータ収集を進める子供部屋おじさん

最近、ずっとプログラム作っています。例の競馬のやつです。いまはデータ収集の段階で具体的な分析はまだ先になりそうです。ブログを見返すと今年の1月には着手していたようですが、全くやる気にならずに11月になっていました。自分は本当に飽きっぽいので長続きしないんです。

レースページからレース情報を抜き出す処理は大体作り終えたので、今はリーディングページをスクレイピングしています。リーディングページというのは、騎手・調教師・血統毎の年間ランキングデータが書いてあるページです。




こんな感じで勝率、獲得賞金などがわかります。芝の方が成績が良いとかダートの方がいいとか大体そんな感じのことがわかるわけです。

実際の分析は全然やれていないんですが、先行者の結果を見てみると人気やオッズが説明変数としてはかなり優秀なようで、これ抜きだと精度が下がってしまうようです。要するにみんなの予想はかなり正確で機械学習でも出し抜くのは困難ということです。


先行者の機械学習ではすべてのレースに対して同じ学習モデルを使っているようなので、自分はあえてレースの種類ごとに異なるが学習モデルを使ってみようかと思っています。

例えば新馬戦と3勝クラスのモデルは別の方がいいのではないでしょうか。新馬は過去のレース結果なんてないのでそれを使うことは出来ないですし、逆に3勝クラスで過去成績を使わない理由がないです。

また、レース会場ごとにもモデルを分けたほうがいいように思います。同じ芝の1200mでも中京と京都ではコースのアップダウンが全然違いますし、当然勝てる馬の性質も違うのではないかと思うからです。短距離のダートなんかも結構特殊なレースで外枠の方が芝を走る距離が長いので勝率も外枠の方がいいなんてこともあるみたいなので、そういうコースごとの特殊性も考慮しないといけないです。

しかし、そんなことをすると効率がすっごい悪くなりそうなのでなんかいい方法がなさそうか思案中です。

0 件のコメント:

コメントを投稿