Warum ist das Training so erfolgreich?

Relative Genauigkeit vs. Absolute Genauigkeit: Die Spielchanceneinschätzung von TD-Gammon weicht in der Regel ca. ein zehntel Punkt von den wahren Gewinnchancen ab. Die alternativen Züge verändern die Brettstellung aber nur wenig, so daß die Züge meist um etwa den gleichen Betrag falsch eingeschätzt werden.



Stochastische Umgebung:

  • Das Würfeln bringt Variabilität ins Training. Erforschung des Zustandsraumes findet statt.

  • Bei zufälliger Strategie endet das Spiel irgendwann. Das Spielende ist ein Attraktor.

Die Zielfunktion, die erlernt werden soll, ist kontinuierlich und nicht diskret wie beispielsweise beim Schach.



blurulr5.gif

nächste



A A A | Drucken | Impressum | Sitemap | Suche | Mobile Version
zum Seitenanfangzum Seitenanfang