学術論文

基本情報

氏名 岩瀬 弘和
氏名(カナ) イワセ ヒロカズ
氏名(英語) Iwase Hirokazu
所属 国際学部 国際学科
職名 教授
researchmap研究者コード
researchmap機関

題名

バンディット問題のアルゴリズムに関する基礎研究

単著・共著の別

単著

著者

岩瀬 弘和

担当区分

概要

本研究では、強化学習の中でもシンプルな問題のひとつであるバンディット問題(Bandit Problem)を対象として、その代表的な解法であるε-greedy法、UCB (Upper Confidence Bound)、Tompson Samplingの三つの方法に着目し、それらの特徴について調べるとともに、性能についての比較を行なった。各アルゴリズムにおけるステップ数(時刻t)と平均報酬(勝率)の関係や報酬総量の平均、標準偏差、最大、最小の各値、および報酬総量の分布を調べることで、各アルゴリズムの特徴や性能が明らかとなった。

発表雑誌等の名称

東京成徳大学国際学部研究紀要

出版者

第2号

開始ページ

75

終了ページ

87

発行又は発表の年月

2024/04

査読の有無

掲載種別

研究論文(大学,研究機関等紀要)