Temporal Difference Learning

gradient descent:

gradient.gif


temporal difference learning:

Das Lernziel ist es, daß sich die konsekutiven Yt Werte möglichst wenig unterscheiden.

tdl-eq1.gif

Yt: Schätzung von TD-Gammon über seine Gewinnchancen zum Zeitpunkt t

alpha: Lernrate


deltawYk.gif: Gradient des Ausgabewerts Yk des Netzes in Abhängigkeit der Gewichte w

lambda: Dieser Parameter kontrolliert das „temporal credit assignmnent“. Bei lamda = 0 gibt es kein Feedback über die Jetzt-Zeit in die Vergangenheit hinaus.



blurulr5.gif

nächste

A A A | Drucken | Impressum | Sitemap | Suche | Mobile Version
zum Seitenanfangzum Seitenanfang