大阪電気通信大学

機械学習で得られるポーカーの勝率と確率論の比較検証

研究背景

 今日機械学習の信用性は数字として実際に示されているものは少ないため、今回制作する機械学習モデルを通して数字として算出し、確率論と比較する事で機械学習の精度を明白にし信頼できるものであると確率論から証明した。

機械学習と確率論

 機械学習とは機械に大量のデータを与え、学習を繰り返す事で変化を予測し, その結果からできる限り精度を高めることである。その精度を高めるために機械学習が用いる手法として主に統計・確率・傾向を用いている。観測されたデータをもとに、統計や確率の理論を使って model の未知パラメータを予測して定めるものである。このことから機械学習と確率論は切り離すことができない非常に密接な関係にある。
 また、学習後に得られたポーカーの勝率を統計勝率とし、学習に用いたデータから計算した勝てるかもしれない確率を理論確率とする。

テキサスホールデムポーカー

 テキサスホールデムポーカーとは、一般的なポーカーのルールとは異なり少し複雑化したもので、不完全情報ゲームである。ここでは本研究で使用した大まかなルールを説明する。
 使用するカードは1〜13までのカードで山札は合計52枚となり、ジョーカーは含まれない。プレイヤーの手札2枚と共有のカード5枚とディーラーの手札2枚が配られ、手札はお互いに確認できない。そして共有のカードのうち決められた3枚はお互いに確認することができる。最終的にプレイヤーは自分の手札2枚と、共有のカード5枚のうち3枚を選択し、合計5枚の手札で役を作っていく。見えていない共有のカード2枚とディーラーの手札2枚を予測し、最終的な自分の合計5枚の手札で勝負するトランプゲームである。また、本研究ではレイズやコールなどの複雑なルールは割愛している。
 マークは出力される数字の1の位に1:ハート、2:スペード、3:ダイヤ、4:クローバーとして出力され、カードの数字は10の位と100の位に出力される。また、プログラムで扱いやすくするために、プログラム上では1は「14」と表記・出力される。(例:出力「132」ならばスペードの13である。)

テキサスホールデムポーカーの場の様子

研究方法

 特徴量としてプレイヤーの手札の組み合わせと共有のカードの確認できる3枚を選択した。テキサスホールデムポーカーのプレイデータを出力するプログラムから1,000,000個のデータを取り、そのデータから特徴量として使用するプレイヤーのカード2枚のデータと共有のカードの確認できる3枚のデータをと勝敗のデータを抽出し、それらを結合した。
 これらのデータからランダムに訓練用データとテスト用データの割合を8対2になるように分けて制作した機械学習モデルに入力した。そこから学習後に出力される勝敗の平均を取り統計確率を得る。また、テスト用データから1プレイの勝てるかもしれない確率を計算し、全てを合算し平均を取ることで理論確率を計算する。

使用した1,000,000個のプレイデータ

研究結果

 統計確率が0.645765、理論確率が0.509749となった。確率だけを見ると勝率は統計確率が理論確率を0.136016上回った。
 これから機械学習は確率論の視点からの精度は高く、 また確率論よりも秀でていることが分かった。よって機械学習は確率論から見ると信頼できるものであると分かった。

今後の課題

 本研究では関連研究との比較なども行っているが、それらの関連研究の機械学習よりも精度は低かった。さらに精度を上げていくにはそれらの関連研究で使用されていた特徴量の選択やデータの追加・取捨選択、また機械学習モデルの改良が必要である。

作者プロフィール

奥出 陸

大阪電気通信大学総合情報学部デジタルゲーム学科4年デジタルアーキテクチャ研究室所属

コメント