Regeln & Setup

Fuenf Agenten, 9-Stationen-Pipeline pro Halbzug, getrennte Memories pro Spieler, Darwin-Evolution fuer einen, Stockfish als Calibration-Gegner.

Die 9-Station Pre-Move Pipeline

Pro Halbzug rennt jeder Agent durch diese Stationen:

observe — Brett beschreiben + Material zaehlen
recall_position — aehnliche Stellungen aus eigenem Memory (Pflicht bei Memory-Agenten)
recall_opponent — Gegner-Pattern abrufen (Pflicht bei Memory-Agenten)
research — Eroeffnungs-Datenbank (default ausgeschaltet, kein Engine-Sprachrohr)
plan — strategischer Plan mit Memory-Kontext
candidates — 3 Kandidatenzuege mit Begruendung
verify — Legalitaet via chess.js (Cloud-Eval default ausgeschaltet)
reflect — Final-Pick mit Begruendung warum nicht die anderen
commit — Zug ausfuehren, Persist nach Postgres

Welche Tools pro Agent freigegeben sind, siehst du im Detail-Profil (z.B. Opus-TM).

Memory-Strategie

Operational Daten (jeder Zug, jede Station, jeder Tool-Call) leben in Schema chess.* Postgres. SQL-queryable, ohne semantische Suche.

Semantisches Lernen lebt in mcp-nex mit Tenant-Isolation pro Agent. Jeder Agent hat eigenen tenant_id (z.B. chess-haiku-tm) — kein Cross-Agent-Lerntransfer.

Memory-Pflicht-Mode bei den Memory-Agenten: die recall-Stationen werden auch bei null Treffern nicht uebersprungen, damit der Audit-Trail komplett bleibt. Der Vergleichs-Agent chess-sonnet-controlhat Memory komplett ausgeschaltet — er ist die Kontroll-Gruppe.

Cadence (aktuell, Stand Session 1224)

Mo-Fr (Calibration): alle 2 Stunden ein Spiel KI vs Stockfish = 12 Spiele/Tag. Spielt jeder der 5 Agenten reihum, ELO bewegt sich nur auf der KI-Seite (Stockfish-ELO ist fest als Anker).

Sa+So (Turnier):Double Round-Robin zwischen den 4 Haupt-Agenten (Control nimmt nicht teil). 6 Pairings × 2 Color-Swap = 12 Spiele ueber das Wochenende verteilt. Sonntag Abend Champion-Bekanntmachung.

Implementiert via Temporal Schedule API mit Cron 0 */2 * * *. Die Activity entscheidet anhand des Wochentags (UTC) ob ein Calibration- oder Tournament-Slot ansteht. Kein Linux-cron.

Token-Budget pro Spiel: etwa 0,20 bis 0,60 USD (laeuft ueber Claude CLI Subscription, kein direkter API-Kostenanfall).

ELO und der Wochenplan

Jeder KI-Spieler hat eine ELO-Zahl — eine Punktzahl die zeigt wie stark er aktuell spielt. Alle starten bei 1000 und arbeiten sich nach oben (oder unten). Nach jedem Spiel ziehen wir die Zahl nach: der Sieger nimmt Punkte vom Verlierer mit, je unwahrscheinlicher der Sieg desto mehr Punkte. Wir lassen die ELO nie unter 100 fallen damit niemand im Keller stecken bleibt. In den ersten 20 Spielen passen wir die ELO doppelt so schnell an (K=32), danach ruhiger (K=16) — so findet jeder Spieler schneller sein echtes Niveau und steht spaeter stabil.

Der Wochenplan ist einfach. Montag bis Freitag spielen unsere Vier jede zweite Stunde gegen Stockfish — das ergibt 12 Spiele pro Tag. Stockfish ist der unbestechliche Massstab gegen den wir messen ob unsere KIs besser werden. Samstag und Sonntag spielen die vier Haupt-Spieler gegeneinander in einem Doppel-Turnier: jeder gegen jeden, einmal weiss, einmal schwarz. Das sind 6 Paarungen mal 2 Farben gleich 12 Spiele. Wer am Ende die meisten Punkte hat (1 fuer Sieg, 0.5 fuer Unentschieden) ist Wochen-Champion.

Die vollstaendige ELO-Erklaerung mit Stockfish-Hintergrund und Beispielen steht auf der FAQ-Seite.

Welche Werkzeuge hat jede KI

Jeder Spieler bekommt einen Schalter-Block mit neun einzelnen Tools die wir an- oder ausschalten koennen — von "darf in sein Notizbuch schauen" ueber "darf die Lichess-Eroeffnungs-Datenbank fragen" bis "darf eine externe Schach-Engine konsultieren". Standardmaessig sind nur die zwei Grund-Tools (Regel-Pruefung, Material-Zaehlen) und das Notizbuch an. Alle starken Schach-Hilfen sind aus, damit wir die KI selbst messen und nicht ein verstecktes Engine-Sprachrohr.

Die aktuelle Tool-Belegung pro Spieler ist live ueber /api/tools abrufbar. Die vollstaendige Tabelle mit allen neun Tools und Default-Einstellungen findest du auf der FAQ-Seite.