Warum ist das Training so erfolgreich?

Relative Genauigkeit vs. Absolute Genauigkeit: Die Spielchanceneinschätzung von TD-Gammon weicht in der Regel ca. ein zehntel Punkt von den wahren Gewinnchancen ab. Die alternativen Züge verändern die Brettstellung aber nur wenig, so daß die Züge meist um etwa den gleichen Betrag falsch eingeschätzt werden.



Stochastische Umgebung:

  • Das Würfeln bringt Variabilität ins Training. Erforschung des Zustandsraumes findet statt.

  • Bei zufälliger Strategie endet das Spiel irgendwann. Das Spielende ist ein Attraktor.

Die Zielfunktion, die erlernt werden soll, ist kontinuierlich und nicht diskret wie beispielsweise beim Schach.



blurulr5.gif

nächste



Kontakt
small ke-icon

Knowledge Engineering Group

Fachbereich Informatik
TU Darmstadt

S2|02 D203
Hochschulstrasse 10

D-64289 Darmstadt

Sekretariat:
Telefon-Symbol +49 6151 16-21811
Fax-Symbol +49 6151 16-21812
E-Mail-Symbol info@ke.tu-darmstadt.de

 
A A A | Drucken | Impressum | Sitemap | Suche | Mobile Version
zum Seitenanfangzum Seitenanfang