
MonkeyLab: Bericht aus einer neuen Folgerichtigkeit
MonkeyLab - vom Ideenlabor zur Code Factory
Das MonkeyLab ist inzwischen mein technisches Forschungslabor und ein Ort für kreative Experimente mit KI-gestützter Entwicklung. Für eigene Produktideen, technische Machbarkeitsstudien und zur eigenen Weiterbildung im praktischen Sinne, entwickle ich hier Prototypen oder produktionsreife Tools, die ich zum Teil selbst täglich nutze. Angefangen hat die Skizze zum MonkeyLab mit allem, was nicht so recht in die reguläre Arbeit passte, inzwischen ist es mein KI-getriebenes R&D.
Product Building als tägliche Routine
Seit ca. 2023 ist KI-Unterstützung in der Entwicklung für mich eine selbstverständliche Erweiterung geworden. Ich bringe aufgrund meiner Laufbahn die Produktperspektive und einen technischen Background mit, was ich heute vollständig anders einsetze als noch vor 5 Jahren. Die Möglichkeiten, Coding Agents und KI effizient einzusetzen, haben meine Optionen radikal erweitert und die Routine geändert. Ideen, die früher viel Entwicklungsaufwand benötigt hätten, können jetzt deutlich schneller ohne Team umgesetzt und real getestet werden. Das ändert das Selbstverständnis. Heute würde ich mich als Product Builder oder Product Creator bezeichnen, nicht als Produktexperte mit technischem Background. Die Disziplinen verschmelzen und neue Tätigkeiten entstehen. Da ich für meine eigenen Entwicklungsprojekte nicht in Budgetabstimmungen stehe oder auf die Meinungen anderer besondere Rücksicht nehmen muss, kann ich mich voll auf das Konzept, die Architektur und die Umsetzung dessen konzentrieren, was ich als nützlich und relevant erachte. Das zum Leben erwecken, was ich gerne in echt sehen möchte. Die Flexibilität, die multidisziplinäre Perspektive und der neue Produktivitätsboost durch KI ermöglichen es mir, kontinuierlich Ideen zu realisieren. Meine Vermutung geht weiter, ich denke dass aktuell eine neue Gattung von Produktentwicklern entsteht, die nicht mehr durch traditionelle Rollen und Fachlichkeiten begrenzt sind.
Eine neue Folgerichtigkeit
Produkthypothesen und Ideen aus dem Innovationsfunnel mussten früher erst einmal “bewiesen” werden, bevor sie kostspielig real umgesetzt werden konnten. Gegenwärtig kann man mit der richtigen Systematik und holistischem Ansatz viel schneller iterieren und mit weniger Aufwand die technische Seite lösen. Dies verändert die Kausalitäten für die Produktentwicklung nachhaltig. Wenn ich in wenigen Stunden ein Tool erstelle, das mir in Folge viele Stunden Aufwand spart, dann lohnt sich die Umsetzung direkt. Tools für die eigene Nutzung lohnen sich da, wo ich vorher einen SaaS-Service von der Stange bemüht hätte. Noch 2020 wäre der Herstellungsaufwand für die selbe Lösung zu groß gewesen, um sich mit einer Umsetzung überhaupt ernsthaft zu befassen. Diese Einsicht muss heute auch in eine neue Folgerichtigkeit überführt werden, wenn es um die Bewertung sinnvoller Entwicklungsinitiativen geht. Aber mehr noch - das, was früher ein valider Business Case war, ist vielleicht heute nicht mehr ausreichend. Was 2020 noch eine solide SaaS-Lösung darstellte, kann heute evtl. viel passgenauer intern umgesetzt werden, wodurch potentielle Kunden verloren gehen. Dies stellt etablierte Unternehmen (etwa mit SaaS und Plattform-Modellen aus den 2010er Jahren) vor neue Herausforderungen in vielschichtiger Hinsicht.
Das MonkeyLab als individuelles R&D
Im MonkeyLab kann ich meine Ideen sofort ohne große Investitionen technisch realisieren. Das Risiko ist absolut minimal, was die technische Seite und den Aufwand betrifft. Dies führt zu einer hohen Experimentierfreudigkeit und vielen neuen Erfahrungen. Ein Beispiel: das Mini-Projekt MonkeyAudit zielt auf tokenbasierte Kostenreduktion (bei der Verarbeitung von Daten mit LLM-Modellen) und datenseitige Qualitätsoptimierung (bei der Informationsextraktion) ab. Es kann praktisch dafür eingesetzt werden, die LLM-Verarbeitbarkeit bzw. Agent Experience von Webseiten zu messen und auf dieser Basis dann zu optimieren. Zudem komprimiert es Webscraping-Daten auf das Wesentliche und hilft so, die Datenqualität für eigene Agents zu verbessern und unnötige Token-Kosten zu vermeiden. Die Herstellung des Tools kostete quasi nichts, es funktioniert wie erhofft und löst unmittelbar tägliche Pain Points bei digitaler Arbeit. Als Nebeneffekt baut man fachliche Kompetenzen auf und optimiert die eigenen Prozesse und Kosten.
MonkeyLab ist also ein Labor für Problemlösungen und Ideen, die oft auch als Proof-of-Concept dienen.
Nach und nach ist so ein kleines ‘Monkey-Verse’ entstanden :) Einige Ansätze möchte ich hier in den Überblick bringen.
Experimente und Projekte
Die MonkeyLab-Projektgenealogie kann man retrospektiv in Phasen unterteilen.
Phase 0 - Feldversuche
Als ich damit angefangen habe, konsequent KI für die Entwicklung einzusetzen, habe ich mir erste Testprojekte überlegt, die vor allem die Machbarkeit untersucht haben. Es ging darum, das Potential von KI zu erforschen und zu schauen, was gut funktioniert und was nicht. Es wurden z.B. zig Webdesigns (z.B. diese Website hier) oder kleinere App-Projekte umgesetzt. Bei den so entstandenen Tools/Apps gab es keinen spezifischen inhaltlichen Schwerpunkt, sondern es handelte sich um kreative Ideen oder einfache Werkzeuge, die ich persönlich gerne nutzen wollte - z.B. eine Webapp für die prozedurale Generierung von Sprites.

Tool zur Sprite-Generierung
Diese Phase von ca. 50-70 Kleinprojekten war sehr lehrreich und sämtliche Experimente haben enorm dazu beigetragen, Limitierungen von Werkzeugen oder Modellen zu verstehen und die eigenen Prozesse zu verbessern, so dass ich heute viel effizienter und konsistenter auch dann zu guten Ergebnissen gelange, wenn das KI-Tool oder das Modell gewechselt wird.
Aus Neugier oder situativem Bedarf oder als Testballon habe ich diverse Anwendungsfälle durchiteriert, z.B. eine kleine App, die als Meta-Jobbörse fungiert uvm. Natürlich wurden auch extrem verrückte Designs oder Experimente durchgespielt, denn nur so kommt man wirklich an Limits und entdeckt Neues. Ein Beispiel: eine dystopische Prediction-Engine, die aktuelle Ereignisse und Szenrio-Parameter analysiert und deren Impact auf Wirtschaft, Gesellschaft und Umwelt extrapoliert bzw. generiert, um dann sinnvolle Investitionsmöglichkeiten vorzuschlagen. Crazy, aber irgendwie lehrreich :)

Meta-Jobcrawler & dystopische Prediction-Engine
Phase 1 - Ersetzen von Werkzeugen für den Eigenbedarf
Für mich hat sich in dieser Phase herauskristallisiert, dass man eigentlich die meisten Tools für den Eigenbedarf nach individuellen Gesichtspunkten umsetzen kann. Eben um Kosten zu reduzieren, um Daten zu kontrollieren oder um individuelle Anforderungen zu lösen.
Interessant und durchaus nervenaufreibend fand ich die Umsetzung eines (local AI) Mail-Clients, der mir direkt die Aufgaben oder relevante Infos aus Mails extrahiert, zusammenfasst und bewertet, denn die Anzahl an Spam und sonstigem Junk ist einfach viel zu hoch, so dass Mails im Grunde kein guter Kommunikationskanal mehr sind. Nervenaufreibend war es, weil ich mich nun zwangsläufig mit mehr E-Mail spezifischen Details auseinandersetzen musste, als ich wollte. Z.B. Feinheiten im Rendering, der Logik von Threads, POP/IMAP Spezifika und dergleichen mehr. Vor ein paar Jahren hätte ich das niemals als sinnvolles Projekt für die eigene Werkbank angesehen. Zumal: der benannte KI-Mail-Client ist eigentlich nur ein Feature in einem gesamtheitlichen Produktivitätstool gewesen, neben CRM, Projektmanagement etc. Ohne KI-Unterstützung hätte ich hier definitiv aufgegeben, vor allem wegen der Kosten-/Nutzen-Abwägung.

Tool für alltägliche Aufgaben inkl. AI-Mailclient
Phase 2 - Werkzeuge für die KI-Entwicklung
Im Laufe der Zeit habe ich gemerkt, dass KI immer stetiger das eigentliche Betriebssystem wird. Das bedeutet, dass wir uns zunehmend auf die Entwicklung von Tools konzentrieren müssen, die uns bei der Arbeit mit KI unterstützen.
Was Development betrifft wurde mir etwa klar, dass eine Limitierung der neuen KI-Code-Factory im Ideen- und Spezifikationsmanagements zu sehen ist. Wenn immer schneller Code produziert werden kann, wird die Ideenqualifikation und Spezifikation zum Bottleneck. Die Arbeit vor dem Code muss also ebenso auf ein neues Level gebracht werden. Zum einen, um auch wirklich das zu erhalten, was man will und braucht, und zum anderen, um die Qualität des Outputs und technische Details systematischer zu steuern.
In diesem Kontext entstanden die Anwendungen MonkeyIdeas und VibeThis zu Ideenmanagement und Spezifizieren im KI-Zeitalter. In diese Kategorie fällt auch TemplAIte , welches jedoch einen anderen Schwerpunkt setzt - TemplAIte soll den Prozess der Entwicklung mit KI unterstützen und dabei helfen methodische Vorgehensweisen etablieren, wenn es um wiederverwendbare Standards, Regeln für Agents und technische Best-Practices geht, die zwischen menschlichen Teams und Agents gelten sollten.

MonkeyIdeas, VibeThis & TemplAIte
Phase 3 - Agenten Entwicklung & Services
Ein besonderes Thema ist die Entwicklung und Arbeit mit Agenten. Dies betrifft für mich mindestens zwei Oberthemen: (A) Die Entwicklung guter Agenten selbst und (B) die Integration von Agenten in bestehende (menschenzentrierte) Systeme und Workflows.
(A) Für den ersten Punkt, also die Entwicklung von Agenten, habe ich verschiedene Ansätze und Technologien ausprobiert (und dabei CrewAI, Langchain, Mastra etc. verwendet), um zu verstehen, was gut funktioniert und was nicht. Simple Agenten kann man schnell umsetzen bzw. sich auch einfach von Agenten bauen lassen. Komplexere Agenten, Schwarm- oder Multi-Agenten-Systeme sind jedoch nicht so einfach zu entwickeln und zu warten.
Das neueste Agenten-Projekt ist OpenMonkey. Dieses Agent-Design ist sowas wie mein eigener OpenClaw Agent, der aber technisch und konzeptuell viele Unterschiede aufweist. OpenMonkey basiert auf Erfahrungen eines evolutionären Agenten CASAI, und der MonkeyCrew, ein Multi-Agent-Environment, welches insbesondere CrewAI nutzte. Meine OpenMonkey-Instanz läuft auf einem dedizierten Linux-System (ein BeeLink Ser9) und heißt Computerklaus. Dieser bringt einige interessante Features mit. Z.B. kann ich Modelle für Aufgaben präferieren, habe sowohl eine Admin-Oberfläche mit Kanban-Board als auch gute Observability-Optionen. Via CLI bzw. besser gesagt TUI (Terminal User Interface) kann ich mit Computerklaus interagieren. Der Schwerpunkt lag hier unter anderem auf Self-Hosting, lokalen Modellen und Security. OpenMonkey arbeitet 24/7 im Hintergrund und kann sich bis zu einem gewissen Grad über sandboxes, versch. Memory-Ebenen und Lernskills selbst weiterentwickeln. OpenMonkey kann sich selbst testen und weiß, welches Modell er gerade benutzt (denn je nach Aufgabe kann ich verschiedene Modelle präferieren, die Aufgaben werden vorhergesagt - so spart man ggfs. Token und nimmt die richtigen Modelle für den Job). Hinzu kommen ein paar fertige Skills. Sehr cool: In einem Obsidian-Vault arbeiten wir gemeinsam an einer geteilten Wissensbasis, was enorm praktisch ist.

Agenten wie OpenMonkey
(B) Für den zweiten Punkt (Agentenintegration / Agent-Management und Kollaboration) hat mich auch die Frage der Visualisierung von komplexen Interaktionen interessiert, und wie man das Zusammenwirken von Mensch und Maschine metaphorisch so umsetzen kann, dass Menschen kognitiv noch mitkommen und verstehen was geschieht. Dafür habe ich z.B. KI-Agenten in verpixelte Office-Environments ‘gesteckt’ und dem menschlichen User somit die Möglichkeit gegeben, mit diesen Agenten wie in einem Computerspiel zu interagieren und zu arbeiten. Aus meiner Sicht eine extrem naheliegende Sache, von der ich behaupte, dass man so etwas noch oft sehen wird.

MonkeySIM (Vorläufer von Habitat)
Monkeytribe ist aktuell in der Entwicklung und fokussiert auf die Zusammenarbeit hybrider Teams, also menschliche und agentische Kollaboration und deren Management.
Habitat ist ein Agent Service und beschäftigt sich mit spatial experience. Dort wird (prinzipiell jeder moderne) Agent um eine räumliche Erfahrungswelt erweitert. In eine über Habitat gehostete Simulation können sich Agenten (z.B. ein Cursor-Agent) über Protokolle verbinden und dann z.B. in ein Büro eintreten. Dort können sie mit Objekten interagieren, die dann wiederum den Zugang zu Tools (via MCP) gewähren (z.B. eine Vektor-Datenbank, um Informationen abzurufen, oder Kommunikationstools). Der Habitat-Nutzer kann Welten gestalten (etwa dem eigenen Büro nachempfunden) und definieren, welche Optionen dort existieren. Nutzer können dann dem Treiben der Agenten zusehen und mit diesen interagieren. Habitat lässt sich auch hervorragend dazu nutzen, die Performance von Agenten bzw. Modellen zu testen. Es war sehr überraschend, wie unterschiedlich manche Modelle mit den selben Aufgaben umgehen, wo sie Probleme haben oder Lösungen finden.
Habitat basiert auf der Erfahrung bei der Entwicklung von MonkeySIM. Der Zweck ist sehr ähnlich, aber in dem Vorläufer-Projekt habe ich Design-Fehler gemacht und die Agenten noch in den Stack integriert, also konkret als Bauteil betrachtet. Auch gab es noch nicht alle heutigen Protokolle, so dass vieles noch anderweitig gelöst werden musste. Das führte zu einer zu komplexen Architektur und Verwässerung der einzelnen Komponentenzwecke. Habitat ist somit eine saubere, neu konzipierte Neuentwicklung, die agenten-agnostisch ist und moderne Protokolle ausnutzt, wodurch ein besseres Ergebnis entsteht.

Habitat & Monkeytribe (hybrid Team OS)
Phase 4 - die nächsten Schritte
In Phase 0 - 3 habe ich sehr vieles gelernt und diese Erfahrungen auch in andere Projekte (z.B. als Product Owner) mit einbringen können. Im MonkeyLab ist inzwischen ein regelrechter MonkeyZoo oder besser: ein MonkeyVerse entstanden. Nach und nach hat die Sache thematisch stärkere Konturen angenommen und immer mehr Zahnräder greifen ineinander. Die nächste Phase knüpft evolutionär an die vorangegangenen an und es zeichnen sich neue Schwerpunkte ab.
Seit ~ 2022 habe ich meine Einstellung dazu, welche Produkte noch nützlich und wertvoll sein können, grundlegend verändert. Die Auseinandersetzung mit vielen Themen hat hier zu neuen Erkenntnissen und Einsichten geführt. Ein paar allgemeine Ableitungen möchte ich abschließend zusammenfassen.
Insights aus dem MonkeyLab
Produkt & Prozess
- Produkt und Development sind heute nicht mehr klar trennbar. Die Grenze verschwimmt und die Logik dessen, was man umsetzen kann oder sollte, hat sich bereits verschoben.
- Daten und Domänenwissen sind auch weiterhin die wichtigen Werte. Der Code drumherum ist es sicher nicht mehr.
- Der Entwicklungsprozess muss zwangsläufig reformiert werden, um den neuen Realitäten (z.B. gegenüber 2020) gerecht zu werden.
- Die Arbeit mit und an Ideen ist ein neuer Engpass. Die Güte von Ideen wird in einem menschlichen Erfahrungsraum festgestellt. Organisationen müssen lernen, innovativ und flexibel zu agieren, zu experimentieren und Relevantes zu testen und zu erkennen. Dies wird nun zu einer überlebensnotwendigen Fähigkeit.
Qualität & Methode
- Qualität bekommt man hin, wenn man möchte. Ob bei Architektur, der Testabdeckung, im Hinblick auf Sicherheitslücken, Performanz oder anderen Aspekten. Es sind die selben Aspekte, die man kritisch sehen muss und sollte, seitdem KI vermehrt bei der Entwicklung eingesetzt wird. Aber die meisten Probleme entstehen durch fehlende Methode, Bequemlichkeit und Fahrlässigkeit.
- Die Qualität und Präzision der Spezifikation hat immer noch erheblichen Einfluss auf die Qualität einer Lösung. Auch wenn inzwischen immer mehr mit Planning-Modes gearbeitet wird und die Modelle immer besser werden, bleibt die Spezifikation von besonderer Bedeutung. Für einen Großteil der Pareto-mäßigen Durchschnitts-Specs, kann man allerdings inzwischen KI auch gut einspannen. Um also Specs zu schreiben, zu reviewen oder zu systematisieren. Den Kern und das Wesen, das Problem und den Job-to-be-done einer Lösung sollte man aber selbst im Griff behalten wollen.
- KI wird das Mittelmaß vortreiben. Gewöhnliche Designs, häufige Nutzungspattern, Durchschnitts-UIs. Und es ist inzwischen sehr einfach geworden, ein gewöhnliches Layout mit gewöhnlichen Designparametern umzusetzen. Schwierig ist es immer noch, radikal neue Designsprachen zu realisieren. Für kreative Konzepte und neue Formsprachen ist die menschliche Kreativität weiterhin nützlich.
Technik & Kosten
- Tools und Modelle liefern immer besser ab. Die Qualität hat sich extrem verbessert. Es gibt natürlich Risiken, die es zu behandeln gibt. Eines der größten Risiken bei der Entwicklung sehe ich in der Unfähigkeit, die Qualität von Lösungen kritisch einzuschätzen und zu bewerten. Ein generelles Risiko ist die Verwendung von Cloud-KI, die nichts anderes ist als das Outsourcing der eigenen Fabrik. Es ist wichtig, dass man die Kontrolle behält und nicht von externen Anbietern abhängig wird. Faktisch kann sich aber nicht jeder eine Hyperscaler-Infrastruktur leisten. Wie leistungsfähige Modelle lokal oder gesichert betrieben werden können, bleibt also eine wichtige Frage.
- Tools und Modelle sind heute universeller einsetzbar. 2023 gab es hier im Vergleich dazu dramatische Unterschiede darin, was funktioniert hat und was gar nicht verlässlich klappte. Heute kann man mit vielen Modellen und Tools arbeiten und bekommt gute Ergebnisse. Eine saubere Methode macht einen unabhängiger von spezifischen Anbietern. Umgekehrt gilt jedoch auch: Die Spezifika jedes Tools und jedes Modells sollte man auszunutzen lernen. In der Regel ist das ein Moving Target.
- Token-Kosten kann man reduzieren. Man sollte auch immer überlegen, welches Modell für welchen Job überhaupt nötig ist. Es muss nicht für jede Aufgabe ein Opus 4.7 sein. Bei systematischen Ansätzen (wie etwa der Kompression von Informationen oder dem dynamischen Modelleinsatz) kann man die Kosten erheblich reduzieren.
- Kontext und Memory Management sind neue Disziplinen, die Übung erfordern. Ich habe in einigen Experimenten gelernt, wie groß die Unterschiede sein können, wenn man Datengrundlage, Kontext und Memory optimal nutzt.
- Der Gesamtzustand von Agenten-Systemen ist insgesamt schwer zu kontrollieren. Etwas, was für nicht-lineare komplexe Systeme typisch ist.
Mensch & Zukunft
- Für mich ist die Frage nicht endgültig beantwortet, wie KI und Menschen eines Tages optimal zusammenarbeiten werden. Viel Hype entsteht dabei, was KI leisten kann - doch am Ende des Tages wird wichtiger sein, wie Menschen KI sinnvoll einsetzen, ohne sich dabei selbst zu entwerten. Das destruktive Potenzial von KI wird nicht von alleine neutralisiert.
- Auf meiner bisherigen Expedition habe ich einige Bereiche entdeckt, die bislang noch völlig unterbelichtet sind, die noch von anderen Themen überschattet sind. Dazu mehr in den kommenden Monaten.
Soweit der Stand aus dem MonkeyLab. Der Blick und die Technologie verändern sich stetig, vieles bleibt im Fluss – und genau das macht die Arbeit daran so interessant und ergiebig.
