TD-Gammon

Generelle Funktionsweise:

Neuronales Netz (Multi Layer Perceptron)

reinforcement learning

  • Learning agent berechnet aus einer Eingabe die Ausgabe.

  • Learning agent erhält eine Belohnung (reward) abhängig von der Güte der Ausgabe.

  • Learning agent lernt besseres Verhalten mit Hilfe des Feedback-Signals.



Temporal credit assignment problem:

Das Belohnungssignal ist erst am Ende des Spiels erhältlich.

=> Temporal Difference (TD) learning methods



blurulr5.gif

nächste



A A A | Drucken | Impressum | Sitemap | Suche | Mobile Version
zum Seitenanfangzum Seitenanfang