Temporal difference learning in RISK-like environments

Verfasser: Paletta, Lucas

Sachtitel: Temporal difference learning in RISK-like environments

Abstract
Die Temporal-Difference Methode ist ein stochastisches on-line Lernverfahren, das die Parameter der Schaetzfunktion proportional zur Differenz aufeinanderfolgender Vorhersagen des Endwertes einer Datenfolge adaptiert. Anwendungen sind Markovsche Entscheidungsprozesse, bei denen selbstorganisierte Agenten ihr Verhalten ohne komplette Kenntnis des dynamischen Modells optimieren. Es wurde ein Simulationsprogramm fuer das Brettspiel "Risiko" entworfen, in dem 2-6 Agenten in einem territorialen Wettstreit um die Besetzung aller Knoten eines Graphen konkurrieren. Ein neuronales Netz lernt dabei mittels Temporal-Difference die Spielstaerke in einer Folge von Wettkaempfen zu maximieren. Ohne Vorwissen entwickelt der Agent durch Auseinandersetzung mit identischen Strategien eine Bewertungsfunktion fuer beliebige Brettkonfigurationen. Zuerst ermittelt ein linearer Assoziator die leistungsstaerkste Inputrepraesentation, fuer welche Uebergangswahrscheinlichkeiten von Wuerfelfolgen zur Berechnung von Erwartungswerten lokaler Entscheidungsprozesse verwendet werden. Die Korrelation zwischen dem Grad der Knoten und der Effizienz von Strategien wird experimentell nachgewiesen. Als nichtlineare Bewertungsfunktion konvergiert das neuronale Netz shliesslich zu maximaler Spielleistung. Die Software kann fuer Experimente auf beliebigen Graphen verwendet werden.

Betreuer
Haase V.; Pineda Fernando J.