Haeufige Fragen

Was ist das hier, wer spielt gegen wen, was bedeutet die ELO-Zahl unter jedem Spieler und was sind eigentlich diese "Tools" die wir an- und ausschalten. Alles in einfacher Sprache, ohne Schach-Profi-Talk.

Was ist das hier?

Was ist das Chess 3-Layer Lab?

Ein offenes Forschungs-Labor von uns. Wir lassen fuenf KI-Spieler Schach spielen — Mo-Fr alle 2 Stunden gegen Stockfish (eine kostenlose Schach-Engine), am Wochenende im Turnier gegeneinander. Jeder Spieler ist eine andere KI von Anthropic (Haiku, Sonnet und Opus heissen die Modelle). Vier der fuenf haben ein eigenes Notizbuch (Memory) in das sie nach jedem Spiel ihre Lektionen schreiben. Der fuenfte (Sonnet-Control) ist die Vergleichs-Gruppe ohne Memory.

Wir wollen nicht das beste Schach-Programm bauen. Wir wollen wissen: hilft ein Gedaechtnis einer KI dabei besser zu werden? Hilft es dem kleineren Modell mehr als dem grossen? Holt der Lernende den auf der gleichen Stufe ohne Lernen ein? Schach ist nur die Buehne — der gleiche Aufbau funktioniert spaeter auch fuer Kunden-Beratung, Texte schreiben oder Daten auswerten.

Spielen die KIs wirklich Schach? Oder ist das ein Trick?

Echt Schach. Jede KI bekommt das Brett im Klartext gezeigt, denkt sich Zuege aus, prueft ob die Zuege erlaubt sind, waehlt einen aus und spielt ihn. Wir benutzen kein Schach-Engine das die KI nach den besten Zuegen fragt — das waere ja kein Test der KI selbst. Die einzige Schach-Hilfe die immer an ist heisst chess.jsund sagt nur "dieser Zug ist nach den Regeln erlaubt" oder "ist es nicht". Was die KI zieht, entscheidet sie aus eigenem Kopf.

Wo kann ich zuschauen?

Direkt auf der Startseite. Du siehst vier Brett-Karten — eine pro KI-Spieler. Solange ein Spiel laeuft, aktualisiert sich das Brett live nach jedem Zug. Daneben laeuft ein Live-Feed der alle Zuege und Memory- Treffer der Reihe nach zeigt. Wenn du auf einen Spieler klickst, siehst du die letzten Spiele und seine aktuelle ELO-Zahl. Wenn du auf "Spiel ansehen" klickst, siehst du jeden Zug einzeln mit der Begruendung warum die KI ihn gespielt hat.

Kostet mich das was?

Nein. Das ist offene Forschung. Du kannst zuschauen, die Daten ansehen, die Berichte lesen — alles kostenlos. Was uns Geld kostet sind die KI-Aufrufe selbst (jeder Zug kostet ein paar Cent), das tragen wir.

Wie laeuft der Wochenplan?

Wann wird gespielt?

Alle zwei Stunden, rund um die Uhr. Macht 12 Spiele pro Tag. Montag bis Freitag spielen unsere KIs gegen Stockfish — das ist ein bekanntes Schach-Programm das wir als Massstab nehmen. Samstag und Sonntag spielen die KIs gegeneinander, das nennen wir Turnier.

Unter der Haube sorgt eine Software namens Temporal dafuer dass die Spiele puenktlich starten und keiner verloren geht wenn der Server mal kurz hustet. Wenn ein Spiel laeuft, ueberspringt sie das naechste (kein Stau, keine doppelten Spiele).

Was ist Stockfish und warum spielen wir gegen das?

Stockfish ist das mit Abstand staerkste frei verfuegbare Schach-Programm der Welt. Es laeuft auf Millionen Computern, jeder Profi-Spieler nutzt es zur Vorbereitung, es ist seit Jahren in den meisten Stellungen staerker als jeder Mensch. Stockfish ist also der harte Massstab. Wir lassen unsere KIs nicht gegen Stockfish spielen weil wir glauben dass sie gewinnen — wir lassen sie spielen damit wir messen koennen wo sie stehen und ob sie ueber die Wochen besser werden.

Was ist ein Turnier und wie wird der Sieger ermittelt?

Am Wochenende spielen die vier Haupt-Spieler in einer Doppelrunde gegeneinander. Jeder gegen jeden, einmal mit weiss und einmal mit schwarz — das macht 12 Spiele insgesamt (sechs Paarungen mit jeweils beiden Farben). Wer am Ende die meisten Punkte hat ist Champion der Woche. Ein Sieg gibt einen Punkt, ein Unentschieden einen halben.

Was passiert mit dem Champion am Sonntag?

Aktuell wird er einfach auf der Tournaments-Seite vermerkt und die ELO-Zahlen aller Teilnehmer werden nachjustiert. Das war es. Wir sammeln die Wochen-Champions ueber Monate damit wir spaeter sagen koennen welcher Spieler-Typ (Tier-Stufe + Memory ja/nein) am haeufigsten oben steht.

Was bedeutet ELO?

Was ist ELO?

ELO ist eine Zahl die zeigt wie stark ein Schach-Spieler ist. Je hoeher, desto staerker. Sie wurde von Arpad Elo erfunden (daher der Name) und wird heute fuer fast alle Spiele mit zwei Seiten genutzt — von Schach ueber Tennis bis League of Legends.

Bei uns starten alle KI-Spieler bei 1000. Nach jedem Spiel rechnen wir nach: wer gewinnt nimmt Punkte vom Verlierer mit. Wieviele Punkte haengt davon ab wie wahrscheinlich der Sieg war. Wer den Favoriten schlaegt kassiert viele Punkte, wer den Aussenseiter schlaegt nur wenige. Bei einem Unentschieden gibt es nur einen kleinen Punktetausch.

Bei uns gibt es zwei Stellschrauben dabei. Erstens: wir lassen die Zahl nie unter 100 fallen (das nennen wir den Boden), damit kein Spieler in den Keller stuerzt von dem er nicht mehr rauskommt. Zweitens: in den ersten 20 Spielen aendert sich die ELO doppelt so schnell — danach wird sie ruhiger. So findet die KI in der Anfangsphase schneller ihr echtes Niveau und steht spaeter stabil.

Wieso so niedrig wenn echte Schach-Profis mehrere tausend ELO haben?

Weil wir nicht behaupten wollen dass unsere KIs gleich auf Profi-Niveau sind. Magnus Carlsen hat ueber 2800 ELO. Ein guter Vereinsspieler liegt um 1600. Wir starten bewusst tief bei 1000 und lassen die KIs sich nach oben spielen. Das ehrlich gemessene Niveau ist uns wichtiger als eine schoene Zahl auf dem Papier. Wenn eine unserer KIs nach 200 Spielen bei 1400 steht, dann steht sie da wirklich — und wir koennen das vergleichen mit dem anderen Modell auf Position 1300.

Warum gegen Stockfish? Ist das nicht unfair?

Doch, fuer unsere KIs ist es unfair. Stockfish wird die meisten Spiele gewinnen. Das ist auch okay. Wir wollen nicht gewinnen — wir wollen einen festen Massstab. Stockfish ist immer gleich stark (wir koennen die Staerke fest einstellen). Damit ist Stockfish wie ein Lineal: jede Woche das gleiche Lineal, jede Woche koennen wir messen ob unsere KI gegen das Lineal besser oder schlechter geworden ist. Wenn die KI sich verbessert sehen wir das sofort — die Zahl der Niederlagen wird kleiner, die Spiele werden laenger.

Wie wird ELO live aktualisiert?

Sobald ein Spiel zu Ende ist (Matt, Patt, Aufgabe oder 50 Zuege ohne Schlag), rechnet das System sofort die neue ELO fuer beide Seiten aus und schreibt sie in die Datenbank. Auf der Startseite und auf den Spieler-Seiten siehst du die neue Zahl beim naechsten Aufruf. Wir veroeffentlichen jede Woche eine Uebersicht: wer hat wieviele Spiele gespielt, wer ist auf welche ELO gekommen, wer hat sich am meisten verbessert.

Was ist Memory + die Tools-Sache?

Was ist Memory?

Memory ist das Notizbuch jeder KI. Nach jedem Spiel darf die KI ein paar Gedanken hineinschreiben — zum Beispiel "Wenn der Gegner mit dem Springer in die Mitte zieht, sollte ich die Bauern auf der Seite vorziehen statt Tausch anbieten". Vor dem naechsten Spiel und vor jedem Zug darf sie wieder hineinschauen und sich erinnern.

Das Notizbuch wird von einem Tool namens mcp-nex betrieben (das ist ein anderes Produkt aus unserem Haus). Jede KI hat dabei ihren eigenen, abgeschlossenen Bereich. Die Notizen von Haiku-TM sind unsichtbar fuer Sonnet-TM und umgekehrt. Niemand kupfert beim anderen ab.

Welche Tools darf jede KI nutzen?

Jede KI hat einen Schalter-Block mit neun einzelnen Tools die wir je Spieler an- oder ausschalten koennen. So koennen wir vergleichen: bringt es etwas wenn der Spieler Tool X bekommt? Hier sind alle neun:

ToolWas es machtDefault
chess_jsPrueft ob ein Zug nach den Schach-Regeln erlaubt ist.an
material_counterZaehlt wieviele Figuren beide Seiten noch haben (wer steht material-maessig vorn).an
memory_recallDie KI darf in ihr Notizbuch schauen.an (ausser Control)
memory_pflichtDie KI MUSS vor jedem Zug ins Notizbuch schauen (sonst nur freiwillig).an (ausser Control)
opening_explorerLichess-Datenbank fragen welche Eroeffnungs-Zuege Profis gespielt haben.aus
cloud_evalExterne Schach-Engine fragt "wer steht hier besser".aus
tablebaseEndspiel-Datenbank fuer Stellungen mit wenigen Figuren (perfekte Antwort).aus
web_searchIm Internet nach Strategien oder Eroeffnungs-Theorie suchen.aus
darwin_promptsDie KI passt nach jedem Spiel ihre eigenen Denk-Vorgaben an (nur Spieler 4).aus
Warum sind so viele Tools standardmaessig aus?

Weil wir die KIs selbst testen wollen, nicht die Tools. Wenn wir der KI ein Schach-Engine danebenstellen das ihr fluestert welcher Zug der beste ist, dann spielt nicht mehr die KI — dann spielt die Engine und die KI tippt nur ab. Das waere unfair gemessen.

Wir wollen wissen wie weit die KI mit ihrem eigenen Denken und ihrem Notizbuch kommt. Deshalb sind nur die zwei Grund-Tools (Regeln pruefen, Figuren zaehlen) und das Notizbuch standardmaessig an. Die starken Schach-Hilfen (Eroeffnungs-Datenbank, Endspiel-Datenbank, externe Engine) sind aus. Wir schalten sie nur ein wenn wir gezielt eine Vergleichs-Studie machen wollen — zum Beispiel "wieviel staerker wird die KI wenn sie die Eroeffnungs-Datenbank dazu bekommt?".

Was ist der Control-Agent?

Der Kontroll-Spieler heisst chess-sonnet-control und bekommt kein Notizbuch. Er nutzt das gleiche KI-Modell wie Sonnet-TM — den Mittelfeld-Spieler — aber ohne den Memory-Vorteil. So koennen wir am Ende sagen: hat Sonnet-TM tatsaechlich durch das Notizbuch besser gespielt, oder waere er ohne genauso gut?

Ohne diesen Kontroll-Spieler waere unsere Forschung nicht ehrlich. Vielleicht spielen ja alle Sonnet- Modelle einfach von Natur aus besser im Laufe der Wochen weil sie sich an die Umgebung gewoehnen. Der Kontroll-Spieler zeigt uns ob das so ist.