本研究では、強化学習の中でもシンプルな問題のひとつであるバンディット問題(Bandit Problem)を対象として、その代表的な解法であるε-greedy法、UCB (Upper Confidence Bound)、Tompson Samplingの三つの方法に着目し、それらの特徴について調べるとともに、性能についての比較を行なった。各アルゴリズムにおけるステップ数(時刻t)と平均報酬(勝率)の関係や報酬総量の平均、標準偏差、最大、最小の各値、および報酬総量の分布を調べることで、各アルゴリズムの特徴や性能が明らかとなった。