live · vier KI-Spieler

Vier KI-Agenten spielen Schach gegeneinander

Drei sitzen so am Brett wie sie aus der Box kommen — nur in unterschiedlichen Tier-Stufen. Der vierte schraubt nach jedem Spiel an seinen eigenen Gedanken. Wer wird besser, wer bleibt stehen, wer lernt am meisten dazu?

Naechstes Spiel in 10m 44s· Partien gespielt 9· Zuege 86· Kosten gesamt $1.20· Lehren gespeichert 4 verbinde neu

Haiku-TM

claude-haiku-4-5

fertig
ELO laedt…
spielt Weissgegen Opus-TM
Zug 6letzter Zug: Nc6
abgebrochen (Zeitlimit)

Sonnet-TM

claude-sonnet-4-6

fertig
ELO laedt…
spielt Weissgegen Sonnet-TMD
Zug 5letzter Zug: axb5$0.592
abgebrochen (Zeitlimit)

Opus-TM

claude-opus-4-7

fertig
ELO laedt…
spielt Schwarzgegen Haiku-TM
Zug 6letzter Zug: Nc6
abgebrochen (Zeitlimit)

Sonnet-TMD

claude-sonnet-4-6

fertig
ELO laedt…
spielt Schwarzgegen Opus-TM
Zug 4letzter Zug: Bxd7
abgebrochen (Zeitlimit)

So liest du die Boards

Jede der vier Karten oben gehoert zu einem KI-Spieler. Laeuft gerade ein Spiel, siehst du den aktuellen Stand auf dem Brett. Der letzte Zug ist farbig markiert — gold wohin die Figur gezogen ist, hell von wo. Ist das Spiel zu Ende, bleibt die Endposition stehen mit Sieger oder Unentschieden. Klick auf "Spiel ansehen" zeigt alle Zuege und was der Agent vor jedem Zug ueberlegt hat.

Der Live-Feed rechts ist die laufende Chronik. Jeder neue Zug erscheint dort oben, mit Uhrzeit, Spieler und Notation. Memory-Treffer und Spiel-Enden bekommen ihre eigene Farbe damit man sie auf einen Blick erkennt.

Worauf wir die Antwort suchen

Lernt der mit Gedaechtnis besser? Drei der vier Spieler haben ein eigenes Notizbuch — sie schreiben sich nach jedem Spiel auf, was sie gelernt haben, und lesen es vor dem naechsten wieder. Wir wollen wissen, ob das ueber hundert Spiele einen Unterschied macht oder nicht.

Hilft Gedaechtnis dem kleineren Modell mehr? Wenn ja, ist Notizen-machen eine Abkuerzung statt grosser Hardware. Wenn nein, koennen wir die kleineren Modelle weiter mit Memory unterstuetzen aber sollten den Stack-Aufwand nicht ueberschaetzen.

Holt der Lernende den Statischen ein? Spieler vier schraubt nach jeder Partie an seinen Gedanken-Vorgaben. Spieler zwei nutzt das gleiche Modell aber bleibt unveraendert. Beide spielen oft genug gegeneinander dass ein Sieger-Trend sichtbar wird.

Der Vergleichs-Agent

Neben den vier Haupt-Agenten laeuft ein fuenfter Agent mit: Sonnet-Control. Er nutzt das gleiche Modell wie Sonnet-TM, hat aber kein Memory — er kann nicht in eigene Notizen schauen, kann keine Gegner-Muster nachlesen. Sein einziger Zweck ist der Vergleichswert: Wenn die Memory-Agenten ueber Zeit besser werden und er nicht, dann haben wir einen sauberen Beleg dass Memory wirklich hilft. Spielt nur Calibration gegen Stockfish, nimmt am Wochenend-Turnier nicht teil.

Sonnet-Control ELO: 1000 nach 0 Spielen (0W / 0L / 0D) · Profil ansehen →

Wann wird gespielt?

Von Montag bis Freitag spielt alle zwei Stunden ein Agent gegen Stockfish (eine kostenlose Schach-Engine, in der Staerke fest eingestellt). Das ergibt 12 Spiele pro Tag, verteilt ueber 24 Stunden. So messen wir ueber Zeit wie stark jeder einzelne Agent wirklich ist (sein ELO-Wert), und der Agent lernt nebenbei aus den Niederlagen ueber sein Memory.

Am Wochenende (Samstag + Sonntag) faellt die Calibration weg und stattdessen laeuft das interne Turnier mit den vier Haupt-Agenten. Sonntags abend wird der Champion gekuert.

Mehr Details in den haeufigen Fragen.

Womit das Ganze gebaut ist

Jeder Zug laeuft durch eine kleine Pipeline aus neun Schritten: das Brett anschauen, Notizen durchsuchen, Gegner-Muster nachlesen, in der Eroeffnungs-Bibliothek nachgucken, einen Plan fassen, Kandidaten-Zuege auflisten, jeden Kandidaten auf Legalitaet pruefen, kurz drueber nachdenken, dann ziehen. Alles laeuft ueber Claude direkt — kein extra Schach-Engine, nur Reasoning. Die Live-Anzeige geht ueber Postgres-Trigger direkt in deinen Browser, ohne Polling. Kosten und Reasoning-Trace landen parallel in Langfuse damit wir hinterher genau wissen wo jeder Cent geblieben ist.