TD-Gammon

Generelle Funktionsweise:

Neuronales Netz (Multi Layer Perceptron)

reinforcement learning

  • Learning agent berechnet aus einer Eingabe die Ausgabe.

  • Learning agent erhält eine Belohnung (reward) abhängig von der Güte der Ausgabe.

  • Learning agent lernt besseres Verhalten mit Hilfe des Feedback-Signals.



Temporal credit assignment problem:

Das Belohnungssignal ist erst am Ende des Spiels erhältlich.

=> Temporal Difference (TD) learning methods



blurulr5.gif

nächste



Kontakt
small ke-icon

Knowledge Engineering Group

Fachbereich Informatik
TU Darmstadt

S2|02 D203
Hochschulstrasse 10

D-64289 Darmstadt

Sekretariat:
Telefon-Symbol +49 6151 16-21811
Fax-Symbol +49 6151 16-21812
E-Mail-Symbol info@ke.tu-darmstadt.de

 
A A A | Drucken | Impressum | Sitemap | Suche | Mobile Version
zum Seitenanfangzum Seitenanfang