Pythonを使って機械学習で競馬予想

機械学習で競馬の予想をする過程を記していきます

データ収集

まずはデータ収集から行う。

データの量とアクセスのしやすさ、スクレイピングのしやすさからnetkeibaを利用する。

netkeibaには2008年以降のレース結果と2000年以降の馬データがある。馬データはもっと古いものもあったかもしれない。

どちらのデータも法則性のあるアドレスにまとめられているため、webページをクロールする技術がなくても大丈夫。アドレスを単純にfor文で回せば1ページずつ取得できる。ページ数が多く、怒られないように待ち時間を入れる必要があるため結構時間がかかる。パソコン的にはここが一番時間がかかるところなので、htmlをそのまま保存しておくことで再度スクレイピングをすることがないようにしたい。初めにやった時は一気にcsvに処理してしまい、後から取りきれていない情報があったことに気づき、初めからやり直しになってしまった。

今のところ、スクレイピングをしたことによってnetkeibaから怒られてはいないので大丈夫だとは思いますが、何かあった時に責任を負うのは嫌なので、待ち時間の設定などを含めて自己責任でお願いします。

 

私はとりあえず、レースの結果と、馬のデータ(基本情報、競争成績、血統)を保存した。

 

https://www.netkeiba.com/?rf=logo