Reinforcement Learning and the Game of Nim

William Lord

Abstracts Computer Science

by William Lord

Institution:	KTH Royal Institute of Technology
Department:
Year:	2015
Keywords:	Natural Sciences; Computer and Information Science; Computer Science; Naturvetenskap; Data- och informationsvetenskap; Datavetenskap (datalogi)
Record ID:	1356327
Full text PDF:	http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-168213

Abstract

This paper treats the concept of Reinforcement Learning (RL) applied to finding the winning strategy of the mathematical game Nim. Two algorithms, Q-learning and SARSA, were compared using several different sets of parameters in three different training regimes. Ananalysis on scalability was also undertaken. It was found that tuning parameters for optimality is difficult andtime-consuming, yet the RL agents did learn a winning strategy, in essentially the same time for both algorithms. As for scalability, it showed that increased learning time is indeed a problem in this approach. The relevance of the different training regimes as well as other conceptual matters of the approach are discussed. It is concluded that this usage of RL is a promising method, although laborious to optimize in this case and quickly becomes ineffective when scaling up the problem. Ideas are discussed and proposed for future research on solving these limiting factors. ; Denna rapport behandlar konceptet Reinforcement Learning (RL) och RL-agenters förmåga att lära sig den vinnande strategin i det matematiska spelet Nim. Två algoritmer, Q-learning och SARSA, med flera olika parameterinställningar jämfördes i tre olika träningsregimer. Därutöver analyserades effekterna av storleksökning av spelet. I undersökningen visade det sig att bestämmandet av parametrar förett optimalt beteende var väldigt svårt och tidskrävande, även om RLagenterna med de funna parametrarna lyckades lära sig den vinnande strategin, och båda algoritmerna verkade lära sig ungefär lika snabbt. Att ökningen av inlärningstid vid växande uppgifter är ett problem verifierades också i undersökningen. Relevansen av de olika träningsregimerna behandlas, likväl andra konceptuella frågor. Som slutsats kan sägas att denna tillämpning av RL är en lovande metod men komplicerad att optimera och med nackdelen att den lätt blir ineffektiv vid större problem. I rapporten diskuteras idéer om föreslagen forskning på lösningar till de begränsande faktorerna.

AbstractsComputer Science

Abstract

Abstracts Computer Science