Temporal Difference Learning

gradient descent:

gradient.gif


temporal difference learning:

Das Lernziel ist es, daß sich die konsekutiven Yt Werte möglichst wenig unterscheiden.

tdl-eq1.gif

Yt: Schätzung von TD-Gammon über seine Gewinnchancen zum Zeitpunkt t

alpha: Lernrate


deltawYk.gif: Gradient des Ausgabewerts Yk des Netzes in Abhängigkeit der Gewichte w

lambda: Dieser Parameter kontrolliert das „temporal credit assignmnent“. Bei lamda = 0 gibt es kein Feedback über die Jetzt-Zeit in die Vergangenheit hinaus.



blurulr5.gif

nächste

Kontakt
small ke-icon

Knowledge Engineering Group

Fachbereich Informatik
TU Darmstadt

S2|02 D203
Hochschulstrasse 10

D-64289 Darmstadt

Sekretariat:
Telefon-Symbol +49 6151 16-21811
Fax-Symbol +49 6151 16-21812
E-Mail-Symbol info@ke.tu-darmstadt.de

 
A A A | Drucken | Impressum | Sitemap | Suche | Mobile Version
zum Seitenanfangzum Seitenanfang