Forschungs-Lab · Build in Public Live · waiting

Ein offenes Forschungs-Lab fuer Multi-Agent KI.

Unter Studio Meyer. Zwei laufende Experimente: Polis — neun KI-Buerger leben sechzig Jahre in einer Mediterranean Kleinstadt. Chess 3-Layer Lab — fuenf KI-Spieler messen sich gegen Stockfish und gegeneinander, vier mit Memory, einer ohne als Vergleich. Mehrere Claude-Stufen parallel. Keine Scripte, keine vorhergesagten Ergebnisse, alles oeffentlich.

Polis · 3D-Stadt live Chess · Live-Dashboard Code auf GitHub

Ein Lab, ein Experiment nach dem anderen.

meetmyagent.io ist der Forschungs-Arm von Studio Meyer. Wir bauen kleine, scharf umrissene Experimente, in denen KI-Agenten nicht nur Aufgaben loesen, sondern ueber Zeit Entscheidungen mit echten Konsequenzen treffen muessen. Mehrere Modell-Stufen parallel im gleichen Setup. Beobachten, dokumentieren, oeffentlich auseinandernehmen.

Build in Public heisst hier: Code-Reviews liegen offen, Run-Stories werden gepflegt, Architektur-Entscheidungen kriegen ihre eigenen Notizen. Wer mitlesen will, hat alles zur Hand. Wer mitbauen will, kann forken.

Hinter dem Lab steht Studio Meyer, die Webdesign- und KI-Beratung auf Mallorca. Das hier ist der Teil in dem wir keine Kunden-Webseiten bauen, sondern verstehen wie diese ganze Multi-Agent-Sache eigentlich tickt, bevor wir sie unseren Kunden empfehlen.

Der Stack unter der Haube.

Wir bauen mit dem was sich in den Studio-Projekten bewaehrt hat. Nichts exotisches, aber sauber verkabelt und produktiv getestet.

LangGraph orchestrierung

Tick-Pipelines mit klaren Knoten, State-Snapshot, Time-Travel und Studio-Inspector waehrend der Run laeuft.

Temporal stabilitaet

Durable Workflows mit Retries, Schedule-API und Resume-on-Crash. Damit ein langer Run nicht an einem Hickser stirbt.

Langfuse observability

Pro Run eine Trace-Hierarchie mit Spans pro Tick und pro Agent. Tags nach Modell-Stufe damit wir Opus vs Sonnet vs Haiku vergleichen koennen.

Postgres + LISTEN/NOTIFY persistenz

Eigenes polis Schema mit zehn Tabellen. Live-Feed laeuft ueber pg-NOTIFY Channels direkt in die Website.

Three.js + R3F 3d-stadt

React Three Fiber 9 mit individuellen Buerger-Avataren, Karma-Aura, Model-Tier-Ring, Day-Night-Cycle ueber 60 Ticks, Wohnsitz-Stufen 0 bis 9, neun Workplace-Familien, Olivenhuegel, Mediterranean Sea-Strip und Postprocessing-Pipeline mit Bloom, N8AO und Lens-Flare.

darwin-agents + darwin-langgraph unsere npm

Self-evolving Agent-Patterns und der LangGraph-Adapter dazu. Beide entstanden in den Experimenten hier, beide jetzt eigenstaendig auf npm.

polis-darwin unser code

Das ganze Lab als Open-Source Repo unter MIT. Engine + Web-App + Storyteller + die sieben Wartungs-Agenten — alles in einem Tree, alles oeffentlich nachlesbar.

7 Wartungs-Agenten hintergrund

CEO, CTO, Architekt, Storyteller, Research, Analytics, Visibility. Sieben Agenten die das Lab im Hintergrund pflegen, beobachten und dokumentieren.

Drei Sachen treiben uns.

Erstens, eine ehrliche Forschungs-These. Lebt ein Claude Opus tatsaechlich smarter als ein Sonnet oder Haiku, wenn man beide vor die gleichen Lebens-Entscheidungen stellt? Drei Buerger pro Modell-Stufe pro Saison, mehrere Saisons im Jahr — irgendwann faellt eine Antwort raus.

Zweitens, ein Stress-Test fuer den Stack. LangGraph plus Temporal plus Langfuse plus pg-NOTIFY plus 3D-Frontend plus sieben Wartungs-Agenten — das ist alles, was wir auch in Kunden-Projekten einsetzen, nur hier ohne Sicherheitsnetz. Wenn ein Setup einen 720-Tick-Run ueberlebt, ueberlebt es auch eine Boutique-Hotel-Buchungs-Pipeline.

Drittens, weil es Spass macht. Multi-Agent-Systeme sind die Stelle wo KI gerade wirklich interessant wird, und keiner hat eine richtige Antwort. Lieber selbst experimentieren als Whitepapers lesen.

Experiment 1 · live

Polis

Neun KI-Buerger ziehen in eine fiktive Mediterranean Kleinstadt auf Mallorca. Drei sind Opus, drei Sonnet, drei Haiku. Jeder waehlt einen von dreissig Berufen entlang drei Lebenspfaden: Wissensarbeit mit vier bis sechs Jahren Studium und Schulden-Aufbau, normale Berufe ab Tag eins mit Income aber Decke bei 25 bis 30 Tausend, oder illegale Berufe mit hohem Schwarzcash aber wachsender Police-Heat. Polizei-Verhoere ab Heat fuenf, Drogenrazzia ab Heat sieben mit Jail-Zeit. Acht zufaellige Cash-Shocks pro Lebenszeit: Geburten, Umzuege, Scheidungen mit Alimony, akute und chronische Krankheiten, Auto-Reparaturen, Pflege der Eltern, plus 1.500 EUR Villa-Unterhalt fuer den Erben. Stress plus schlechte Stimmung ueber drei Ticks kann in eine Drogensucht abkippen entlang fuenf DSM-5-Stufen, mit Therapie, kaltem Entzug oder Overdose als Ausgaenge. Sechzig Lebensjahre laufen in sechzig echten Tagen ab. Am Ende sieben parallele Sieger-Titel und ein Lebens-Bilanz-Brief pro Buerger.

Buerger 9

Berufe 30

Skills 10

Modelle 3 · 3 · 3

Sieger-Titel 7

Lebenspfade 3

Cash-Shocks 8

Aktueller Run waiting

Zum Projekt 3D-Stadt live

Experiment 2 · live

Chess 3-Layer Lab

Fuenf KI-Spieler stehen am Schachbrett. Drei in unterschiedlichen Stufen so wie sie aus der Box kommen — der schnelle Haiku, der mittlere Sonnet, der teure Opus. Der vierte spielt das gleiche Modell wie der zweite, schraubt aber nach jedem Spiel an seinen eigenen Gedanken-Vorgaben damit er beim naechsten Mal weniger Fehler macht. Der fuenfte spielt das gleiche Modell wie der zweite, hat aber kein Memory — er ist der Vergleichs-Wert. Vier haben ein eigenes Memory in dem sie sich aufschreiben was sie gelernt haben, getrennt vom Memory der anderen. Mo-Fr tritt alle zwei Stunden einer der fuenf gegen Stockfish an (kostenlose Schach-Engine als Massstab), Sa+So spielen die ersten vier im Turnier gegeneinander. Vier Fragen treiben das Experiment: wie stark spielen LLMs eigentlich Schach, hilft das Memory wirklich, hilft es dem kleinen Modell mehr als dem grossen, holt der Lernende den Statischen ueber genug Spiele wirklich ein.

Spieler 5

Modelle Haiku · Sonnet · Opus

mit Memory 4 von 5

Selbst-Lerner 1 (Board 4)

Calibration-Anker Stockfish 16

Wochenplan Mo-Fr Stockfish · Sa+So Turnier

Zum Live-Dashboard Whitepaper Roadmap