Dieser Eintrag wurde ursprünglich auf meinem alten Blog veröffentlicht. Dieser Eintrag hier ist eine Kopie mit kleinen technischen Anpassungen.
Puh… eigentlich wollte ich schon seit einer Stunde im Bett sein. Wachgehalten hat mich die Reinforcement-Learning-Übungsaufgabe. Es lief nicht so, wie ich wollte. Meine Hartnäckigkeit (aka Dickköpfigkeit) hat schließlich zum Erfolh geführt, die Maschine spuckt plausible Werte aus. Interessant ist nur, wie es dazu kam. Ich habe stundenlang Veränderungen am Programm geschrieben, weil es nicht lief. Als ich dann aber zwei mal fast dieselbe Version (der einzige Unterschied war die Debug-Ausgabe) laufen ließ, funktionierte alles. Selbst als ich danach die Debug-Ausgabe wieder wegließ.