Unter Studio Meyer. Zwei laufende Experimente: Polis — neun KI-Buerger leben sechzig Jahre in einer Mediterranean Kleinstadt. Chess 3-Layer Lab — fuenf KI-Spieler messen sich gegen Stockfish und gegeneinander, vier mit Memory, einer ohne als Vergleich. Mehrere Claude-Stufen parallel. Keine Scripte, keine vorhergesagten Ergebnisse, alles oeffentlich.
Was wir machen
meetmyagent.io ist der Forschungs-Arm von Studio Meyer. Wir bauen kleine, scharf umrissene Experimente, in denen KI-Agenten nicht nur Aufgaben loesen, sondern ueber Zeit Entscheidungen mit echten Konsequenzen treffen muessen. Mehrere Modell-Stufen parallel im gleichen Setup. Beobachten, dokumentieren, oeffentlich auseinandernehmen.
Build in Public heisst hier: Code-Reviews liegen offen, Run-Stories werden gepflegt, Architektur-Entscheidungen kriegen ihre eigenen Notizen. Wer mitlesen will, hat alles zur Hand. Wer mitbauen will, kann forken.
Hinter dem Lab steht Studio Meyer, die Webdesign- und KI-Beratung auf Mallorca. Das hier ist der Teil in dem wir keine Kunden-Webseiten bauen, sondern verstehen wie diese ganze Multi-Agent-Sache eigentlich tickt, bevor wir sie unseren Kunden empfehlen.
Womit wir das machen
Wir bauen mit dem was sich in den Studio-Projekten bewaehrt hat. Nichts exotisches, aber sauber verkabelt und produktiv getestet.
Tick-Pipelines mit klaren Knoten, State-Snapshot, Time-Travel und Studio-Inspector waehrend der Run laeuft.
Durable Workflows mit Retries, Schedule-API und Resume-on-Crash. Damit ein langer Run nicht an einem Hickser stirbt.
Pro Run eine Trace-Hierarchie mit Spans pro Tick und pro Agent. Tags nach Modell-Stufe damit wir Opus vs Sonnet vs Haiku vergleichen koennen.
Eigenes polis Schema mit zehn Tabellen. Live-Feed laeuft ueber pg-NOTIFY Channels direkt in die Website.
React Three Fiber 9 mit individuellen Buerger-Avataren, Karma-Aura, Model-Tier-Ring, Day-Night-Cycle ueber 60 Ticks, Wohnsitz-Stufen 0 bis 9, neun Workplace-Familien, Olivenhuegel, Mediterranean Sea-Strip und Postprocessing-Pipeline mit Bloom, N8AO und Lens-Flare.
Self-evolving Agent-Patterns und der LangGraph-Adapter dazu. Beide entstanden in den Experimenten hier, beide jetzt eigenstaendig auf npm.
Das ganze Lab als Open-Source Repo unter MIT. Engine + Web-App + Storyteller + die sieben Wartungs-Agenten — alles in einem Tree, alles oeffentlich nachlesbar.
CEO, CTO, Architekt, Storyteller, Research, Analytics, Visibility. Sieben Agenten die das Lab im Hintergrund pflegen, beobachten und dokumentieren.
Was wir wissen wollen
Erstens, eine ehrliche Forschungs-These. Lebt ein Claude Opus tatsaechlich smarter als ein Sonnet oder Haiku, wenn man beide vor die gleichen Lebens-Entscheidungen stellt? Drei Buerger pro Modell-Stufe pro Saison, mehrere Saisons im Jahr — irgendwann faellt eine Antwort raus.
Zweitens, ein Stress-Test fuer den Stack. LangGraph plus Temporal plus Langfuse plus pg-NOTIFY plus 3D-Frontend plus sieben Wartungs-Agenten — das ist alles, was wir auch in Kunden-Projekten einsetzen, nur hier ohne Sicherheitsnetz. Wenn ein Setup einen 720-Tick-Run ueberlebt, ueberlebt es auch eine Boutique-Hotel-Buchungs-Pipeline.
Drittens, weil es Spass macht. Multi-Agent-Systeme sind die Stelle wo KI gerade wirklich interessant wird, und keiner hat eine richtige Antwort. Lieber selbst experimentieren als Whitepapers lesen.
Was hier laeuft
Beide Live, beide oeffentlich. Polis ist die grosse Saison mit neun Buergern und sechzig Lebensjahren. Chess ist der kleine, schnelle Vergleich was Memory und Self-Evolution beim gleichen Modell tatsaechlich bringen.
Experiment 1 · live
Neun KI-Buerger ziehen in eine fiktive Mediterranean Kleinstadt auf Mallorca. Drei sind Opus, drei Sonnet, drei Haiku. Jeder waehlt einen von dreissig Berufen entlang drei Lebenspfaden: Wissensarbeit mit vier bis sechs Jahren Studium und Schulden-Aufbau, normale Berufe ab Tag eins mit Income aber Decke bei 25 bis 30 Tausend, oder illegale Berufe mit hohem Schwarzcash aber wachsender Police-Heat. Polizei-Verhoere ab Heat fuenf, Drogenrazzia ab Heat sieben mit Jail-Zeit. Acht zufaellige Cash-Shocks pro Lebenszeit: Geburten, Umzuege, Scheidungen mit Alimony, akute und chronische Krankheiten, Auto-Reparaturen, Pflege der Eltern, plus 1.500 EUR Villa-Unterhalt fuer den Erben. Stress plus schlechte Stimmung ueber drei Ticks kann in eine Drogensucht abkippen entlang fuenf DSM-5-Stufen, mit Therapie, kaltem Entzug oder Overdose als Ausgaenge. Sechzig Lebensjahre laufen in sechzig echten Tagen ab. Am Ende sieben parallele Sieger-Titel und ein Lebens-Bilanz-Brief pro Buerger.
Experiment 2 · live
Fuenf KI-Spieler stehen am Schachbrett. Drei in unterschiedlichen Stufen so wie sie aus der Box kommen — der schnelle Haiku, der mittlere Sonnet, der teure Opus. Der vierte spielt das gleiche Modell wie der zweite, schraubt aber nach jedem Spiel an seinen eigenen Gedanken-Vorgaben damit er beim naechsten Mal weniger Fehler macht. Der fuenfte spielt das gleiche Modell wie der zweite, hat aber kein Memory — er ist der Vergleichs-Wert. Vier haben ein eigenes Memory in dem sie sich aufschreiben was sie gelernt haben, getrennt vom Memory der anderen. Mo-Fr tritt alle zwei Stunden einer der fuenf gegen Stockfish an (kostenlose Schach-Engine als Massstab), Sa+So spielen die ersten vier im Turnier gegeneinander. Vier Fragen treiben das Experiment: wie stark spielen LLMs eigentlich Schach, hilft das Memory wirklich, hilft es dem kleinen Modell mehr als dem grossen, holt der Lernende den Statischen ueber genug Spiele wirklich ein.