ADHD: vorzeitige Konvergenz von Coding-Agenten mit parallelem divergentem Denken beheben
"Die ADHD-GitHub-README dient zur Bestätigung der Projektpositionierung, des npm-Pakets adhd-agent, der MIT-Lizenz, des Zwei-Phasen-Mechanismus, der Eval-Ergebnistabelle und der Installationsbefehle."
"Das ADHD-how-it-works-Dokument dient zur Bestätigung der zwei Phasen Diverge/Focus, der isolierten Zweige, der O(N)-Token-Kosten und des Nebenläufigkeits-Semaphors."
"Das Dokument ADHD vs CoT and ToT dient zur Bestätigung der strukturellen Unterschiede zu Chain-of-Thought und Tree-of-Thought und der drei tragenden Unterschiede."
"Das ADHD-when-to-use-Dokument dient zur Bestätigung der Listen für Einsatz und Nicht-Einsatz, der Kostenzahlen und der Verortung am Entscheidungspunkt."
"Das Feature von The New Stack über Claude Code ADHD dient zur Bestätigung der Drittanbieter-Berichterstattung und der Ökosystem-Adoption."
Gibt man einem Agenten ein offenes Problem, hat er einen festen Fehler: Er landet beim ersten plausibel wirkenden Plan und schreibt dann genau diesen Weg weiter. Die README hat ein reales Beispiel dafür. Ein CLI ruft ein LLM auf und hängt gelegentlich 90 Sekunden, und der Agent soll eine Retry- und Timeout-Strategie entwerfen. Ein Einzelschuss-Agent liefert eine sehr standardisierte Antwort: 15 Sekunden First-Token-Timeout, 30 Sekunden Between-Token-Timeout, 90 Sekunden absolute Obergrenze, plus einen automatischen Retry, mit Verweis auf Kapitel 22 des Google-SRE-Buchs. Nichts daran ist falsch, aber er fragt kein einziges Mal, ob für dieses Problem das falsche Modell gewählt wurde – wo der langsame Aufruf gar nicht wiederholt, sondern gegen ein schnelleres Modell neu gestartet werden sollte.
Das ist die Lücke, die ADHD füllen soll. Es ist das npm-Paket adhd-agent, MIT-lizenziert, gebaut auf dem Claude- und Codex-Agent-SDK. Es fächert ein Problem parallel über mehrere isolierte kognitive Frames in Dutzende Ideen auf und nutzt dann einen separaten Critic-Aufruf, um zu bewerten, zu clustern, Fallen zu beschneiden und die besten zu vertiefen. In dieser Reihe zu lokalen LLMs spielt es eine ungewöhnliche Rolle: Es löst nicht, „wo das Modell läuft”, sondern „ob der Agent an einem wichtigen Entscheidungspunkt breit genug denkt”.
Das Urteil zuerst: Es behebt vorzeitige Konvergenz
Vorzeitige Konvergenz (premature convergence) ist ein strukturelles Problem autoregressiver Modelle. Das Modell generiert Token für Token, und jedes neue Token wird von dem mitgezogen, was bereits geschrieben wurde. Sein erster Plan ist daher meist der typischste, lehrbuchhafteste aus den Trainingsdaten. Diese Antwort ist meist korrekt, aber meist unoriginell – und schlimmer, oft eine Falle, die gerade deshalb richtig aussieht, weil sie vertraut ist.
Wann trifft Sie das wirklich? Bei Architekturentscheidungen wie Storage-Layering, Sharding, Auth-Modellen und Queue-Topologie; beim Benennen von Funktionen, Produkten und Umgebungsvariablen; und bei einem unscharfen Bug ohne klare Ursache, wo Sie zuerst ein paar Hypothesenklassen auflisten müssen. Gemeinsam ist all dem, dass es keine Standardantwort gibt und das Verfehlen der nicht offensichtlichen, aber tragfähigen Option Monate später eine Neufassung kosten kann.
Umgekehrt: Alles mit klarer Antwort sollte es nicht nutzen. Nachzuschlagen, wie man eine API aufruft, einen Bug zu fixen, dessen Ursache Sie schon gefunden haben, alles, was eine Suche entfernt ist – das verschwendet hier Geld und Zeit. Eine Faustregel: Was ein Junior googeln und finden würde, lassen Sie die Baseline beantworten; sobald ein Senior innehalten und sagen würde „darüber muss ich kurz anders nachdenken”, verdient ADHD seinen Platz.
Der Mechanismus: eine harte Wand zwischen zwei Phasen
ADHD ist eine Zwei-Phasen-Schleife mit einer harten Trennung zwischen den Phasen. Der Autor betont, dass das Vermischen von Divergenz und Review genau das ist, was die Ideenqualität zerstört, weil der Critic den Generator auf der Stelle erwürgt.

Divergenz: N Zweige, die einander nicht sehen
Die erste Phase wählt N kognitive Frames und feuert N parallele Agent-SDK-Aufrufe ab, jeder eine frische, zustandslose Sitzung. Jeder Zweig sieht nur drei Dinge: das ursprüngliche Problem, den Vantage-Prompt eines Frames und einen System-Prompt, der Bewertung und Ranking verbietet. Entscheidend ist, dass die Zweige einander nicht sehen können. Der Zweig mit der „Regulator”-Perspektive liest nie, was der „Speedrunner”-Zweig geschrieben hat. Ohne geteilten Kontext wird Anchoring nicht durch Prompting unterdrückt; es existiert per Konstruktion einfach nicht.
Fokus: ein separater Critic-Aufruf
Der Critic kommt erst in der zweiten Phase ins Spiel und tut drei Dinge. Zuerst bewertet er jede Idee von 0 bis 10 nach Neuheit, Machbarkeit und Passung und versieht jede Falle mit einem mechanistischen Grund, etwa „shelve ist unter Multi-Writer-Last nicht thread-sicher” statt eines vagen „das ist riskant”. Dann clustert er nach zugrunde liegendem Blickwinkel statt nach Oberflächen-Stichwörtern, sodass Sie die Form des gesamten Entwurfsraums sehen. Schließlich vertieft er die Top-K, standardmäßig 3, mit Skizze, tragendem Risiko, erstem konkreten Schritt und 3 bis 5 Unterideen.
Hier steckt eine leicht übersehene Designentscheidung: Die Trennung von Generator und Critic ist mechanisch, gebaut aus zwei verschiedenen API-Aufrufen mit zwei gegensätzlichen System-Prompts, kein Versprechen an dieselbe Sitzung, „erst zu divergieren, dann zu konvergieren”. Der Aufruf eines isolierten Zweigs sieht ungefähr so aus:
const branches = await Promise.all(
frames.map(frame => withSemaphore(concurrency, () => callLLM({
systemPrompt: `${frame.vantage}\n\nFORBIDDEN: evaluation, ranking, hedging. JSON array out.`,
userPrompt: `${problem}\n\n${context ?? ""}`,
})))
);
Die Token-Kosten wachsen linear mit der Zahl der Zweige statt quadratisch, weil spätere Zweige nie nachlesen, was frühere geschrieben haben. Die Nebenläufigkeit steuert ein Semaphor, standardmäßig 4.
Aus einem Lauf erhalten Sie keine Textwand, sondern ein strukturiertes Ergebnis: die vollständige geclusterte Ideensammlung, eine Shortlist von 2 bis 4 Kandidaten, eine ausdrücklich markierte „nicht offensichtliche, aber tragfähige” Wahl, eine Fallenliste mit je einem Grund, die vertieften Zweige und eine Wildcard-Provokation. Zurück zum Retry-Problem: Der Einzelschuss lieferte nur das Lehrbuch-Hybrid; die Option, die ADHD aus über 30 Ideen heraushob, war „ein Button, der heißer pulsiert, je länger man wartet, und der mit einem Klick abbricht und an ein schnelleres Haiku-Modell neu sendet”, während er Ideen, die nach Spaß klingen, aber Fallen sind – wie „Token rückwärts streamen” und „Abrechnung nach Geduld” – früh markierte, bevor sie Engineering-Zeit kosten.
Worin es sich von Chain-of-Thought und Tree-of-Thought unterscheidet
Diese drei werden am leichtesten verwechselt, sind aber strukturell verschieden.
| Dimension | Chain-of-Thought | Tree-of-Thought | ADHD |
|---|---|---|---|
| Threads | einer, linear | ein Baum, durchlaufen | N parallel, isoliert |
| Zweige teilen Kontext | ja | ja (eine Sitzung) | nein, jeder Zweig ist eine eigene Query |
| Generierung vs. Review | gleicher Schritt | gleiches Modell, abwechselnd | getrennte Phasen, getrennte Aufrufe, gegensätzliche Haltung |
| Verzweigungstreiber | keiner | Varianten des nächsten Schritts | kognitive Frames, die die ganze Frage neu stellen |
| Parallelität | sequenziell | meist sequenziell | echte Nebenläufigkeit |
| Geeignet für | Mathe, mehrstufige Logik | Suche, Planung, Rätsel | offenes Design und Ideenfindung |
Drei tragende Unterschiede sind es wert, herausgehoben zu werden. Erstens: Isolation statt Suche. CoT- und ToT-Zweige teilen ein Kontextfenster, sodass das Modell bei Schritt vier an seine ersten drei Schritte verankert ist; ADHD-Zweige können einander während der Divergenz nicht sehen, sodass Anchoring per Konstruktion entfällt. Zweitens: Es variiert den Frame, nicht den nächsten Schritt. ToT-Zweige variieren meist den nächsten Zug (diese Zahl probieren, jene probieren), während ADHD die Perspektive auf das ganze Problem variiert, das Modell also bittet, „dies als Hardware-Problem neu zu stellen”, was strukturell andere Ideen erzeugt statt naher Feinjustierungen. Drittens: Die Trennung von Generator und Critic ist mechanisch statt versprochen.
Eine Klarstellung: ADHD ist selbst eine Tree-of-Thought-Variante, und die Vertiefungsphase entfaltet tatsächlich Top-K-Knoten. Neu ist, dass das Verzweigen von Frames getrieben wird und dass die Review-Trennung auf zwei wirklich separaten Aufrufen beruht.
Was ein Frame ist: die Perspektive auf das ganze Problem wechseln
Ein Frame ist kein Rollenspiel. Es ist ein „Vantage-Operator”, ein System-Prompt, der das ganze Problem aus einer bestimmten kognitiven Position neu stellt. Anders als die Persona-Prompt-Forschung mit ihrem „Du bist ein 34-jähriger Ingenieur namens Alex” lässt ein Frame das Modell keine Rolle spielen; es zwingt das Modell in eine Denkecke, in die es nicht von selbst driften würde.
Das Projekt liefert 15 Frames mit, und bei aktiviertem codeMode (Standard) neigt es zu Engineering-Perspektiven. Ein paar konkrete: Der Hardware-Ingenieur denkt in Latenz, Speicheranordnung und physikalischen Beschränkungen; der 3-Uhr-nachts-On-Call denkt „welches Design würde mich nicht aus dem Bett klingeln”; der Frame „tragende Annahme entfernen” fragt „was ist möglich, wenn Framework, Datenbank und Netzwerk alle weg sind”. Jeder Lauf wählt Frames deterministisch per Seed und reserviert immer einen Wild Slot, damit die Divergenz ein bisschen schräg bleibt.
Ein paar domänenübergreifende Frames sind besonders gut darin, übertragbare Ideen herauszuhebeln: Die Biologie greift auf Immunsystem, neuronale Plastizität und Zellsignale zurück; die Logistik denkt in Warteschlangen, Batching, Just-in-time-Lieferung und Hub-and-Spoke; das Game-Design denkt in Loops, Belohnungen, Reibung, Save-States und Speedrun-Tricks. Die wirklich gute Antwort auf ein offenes Problem liegt oft außerhalb des Standardrepertoires einer einzelnen Domäne und muss von anderswo übertragen werden – genau dafür gibt es domänenübergreifende Frames.
Einen eigenen Frame zu schreiben, kostet etwa 5 Zeilen Code. Ein guter Frame erfüllt mindestens zwei von drei Kriterien: ein Vokabular, das kein anderer Frame nutzt, eine von den anderen unterscheidbare Haltung (gegnerisch, konstruktiv, naiv, maximalistisch) und eine reproduzierbare Verzerrung, die Ideen hervorbringt, die die anderen Frames verfehlen. Nur die Domäne umzubenennen und dasselbe zu sagen, reicht nicht.
Wann nutzen, wann nicht
Behandeln Sie es als Entscheidungspunkt-Werkzeug, nicht als Pro-Tastendruck-Werkzeug. Die folgende Tabelle können Sie direkt anwenden.
| Szenario | ADHD nutzen | Grund |
|---|---|---|
| Architektur, Sharding, Auth, Queue-Topologie-Design | Nutzen | offen, vorzeitige Konvergenz ist teuer |
| API- / SDK- / CLI-Oberflächendesign und Benennung | Nutzen | Sie brauchen eine nicht offensichtliche, aber tragfähige Option |
| Unscharfes Debugging ohne klare Ursache | Nutzen | Sie brauchen zuerst mehrere Hypothesenklassen |
| Migration, Refactoring-Planung, Code-Review verbreitern | Nutzen | mehr Blickwinkel finden Fallen früher |
| Eine API oder ein Dokument nachschlagen | Weglassen | eine Suche entfernt, Einzelschuss ist schneller |
| Einen Bug mit bekannter Ursache fixen | Weglassen | die Antwort ist eindeutig |
| Innere Schleifen, pro Tastendruck, geringe Latenz | Weglassen | ein Lauf dauert 30 bis 90 Sekunden |
Seien Sie sich der Kosten klar. Ein Standardlauf sind grob 10 LLM-Aufrufe: standardmäßig 5 Divergenz-Aufrufe plus je 1 Bewerten, 1 Clustern und 3 Vertiefen, zusammen etwa 5- bis 10-mal ein Einzelschuss, mit 30 bis 90 Sekunden Wandzeit. Die Einordnung des Autors ist praktisch: rund 0,30 US-Dollar ausgeben, um eine 50.000-Dollar-Architekturentscheidung zu verbreitern – nicht bei jedem Tastendruck laufen lassen, sondern an Entscheidungspunkten. Ein ehrlicher Vorbehalt: In einer Claude-Code-Sitzung mit großer CLAUDE.md und Tool-Kontext lädt jeder Zweig dieses Basissubstrat neu, sodass die realen Token-Kosten eher bei „Zweige mal Basis plus Zweig” liegen, höher als die reinen Algorithmuskosten.
Installieren und auslösen
Die Installation ist ein Befehl, der Ihren Agenten automatisch erkennt, über Claude Code, Cursor, Antigravity, Codex, Cline, Gemini CLI, Windsurf und rund 50 weitere.
npx skills add UditAkhourii/adhd
Nach der Installation lösen Sie es explizit mit /adhd "Ihr Problem" aus oder lassen es bei Ideenfindungs-Absichten automatisch auslösen. Codex hat einen eigenen Erkennungspfad; wenn sich der universelle Befehl nicht registriert, geben Sie das Ziel vor:
npx skills add UditAkhourii/adhd -a codex -g
Sie können SKILL.md auch von Hand in das Skills-Verzeichnis von Codex unter ~/.codex/skills/adhd/ kopieren; nach einem Neustart läuft /adhd "design a rate limiter" über diesen Skill. Es gibt auch CLI- und Library-Installationen: npm install -g adhd-agent für die CLI, npm install adhd-agent, um es als Library zu nutzen.
Lesen Sie vor der Installation eines Drittanbieter-Skills dessen SKILL.md, um zu sehen, was es vom Agenten verlangt, vor allem ob es externe Befehle aufruft. Der Praxisleitfaden zur Sicherheitsprüfung von OpenClaw-Skills ist hier eine nützliche Referenz; 5 Minuten für die Berechtigungsgrenzen schlagen das spätere Aufräumen.
Zu lokalen Modellen, ganz ehrlich: ADHD ist auf dem Agent-SDK gebaut und nutzt standardmäßig Claude-Modelle, es ist also kein lokales Out-of-the-Box-Tool. Ein lokales Modell wie eines über Ollama anzubinden bedeutet, selbst einen Adapter auf der Aufrufebene zu schreiben, und das Projekt verspricht nicht, dass dieser Weg glatt läuft. Sein Platz in dieser Reihe zu lokalen LLMs liegt im Denken auf der Ebene der Agent-Argumentation, nicht in der Behauptung, man könne es direkt an ein kleines lokales Modell verfüttern.
Fazit
Behandeln Sie ADHD als Werkzeug, das Sie an einem Entscheidungspunkt zücken, nicht als etwas, das Ihren ganzen Workflow übernimmt. Sein Wert ist nicht „mehr denken”, sondern „anders denken” plus ein separater Review-Durchlauf, der die Fallen benennt. Lassen Sie es einmal an einer Architekturentscheidung laufen, für die Sie schon eine Antwort haben, vergleichen Sie die nicht offensichtliche Option, die es zurückgibt, mit Ihrem eigenen Plan, und entscheiden Sie dann, ob Sie es in Ihre Agent-Schleife einbauen.
Zum Weiterlesen: Das Panorama der KI-Coding-Tools 2026 zeigt, wo es in der Tool-Landschaft steht, und die Analyse der DeepAgents-Architektur erklärt, wie Sub-Agenten und Planungswerkzeuge das Denken organisieren.
ADHD in Claude Code oder Codex installieren und auslösen
Den ADHD-Skill mit einem Befehl installieren und an einem wichtigen Entscheidungspunkt mit /adhd paralleles divergentes Denken auslösen.
- 1
Step1: Universelle Installation
Führen Sie npx skills add UditAkhourii/adhd aus. Es erkennt automatisch Claude Code, Cursor, Antigravity, Codex, Cline, Gemini CLI, Windsurf und rund 50 weitere Agenten und installiert an den richtigen Ort. - 2
Step2: Skill auslösen
Lösen Sie es explizit mit /adhd "Ihr Problem" aus oder lassen Sie es bei Ideenfindungs-Absichten wie Architektur, Benennung und unscharfem Debugging automatisch auslösen. - 3
Step3: Codex-spezifischer Weg
Wenn sich der universelle Befehl in Codex nicht registriert, führen Sie npx skills add UditAkhourii/adhd -a codex -g aus oder kopieren SKILL.md manuell nach ~/.codex/skills/adhd/ und starten Codex neu. - 4
Step4: Erst Berechtigungen prüfen
Lesen Sie vor der Installation eines Drittanbieter-Skills dessen SKILL.md, um zu sehen, was es vom Agenten verlangt, vor allem ob es externe Befehle aufruft.
FAQ
Was ist der Unterschied zwischen ADHD und Tree-of-Thought?
Wie viel kostet ein ADHD-Lauf und wie langsam ist er?
Braucht ADHD Claude, oder geht ein lokales Modell?
Für welche Aufgaben eignet sich ADHD?
Ist ein ADHD-Frame nur Rollenspiel?
Wie installiere ich ADHD in Codex?
10 Min. Lesezeit · Veröffentlicht am: 8. Juni 2026 · Aktualisiert am: 15. Juni 2026
AI Agent Toolbox
Wenn du über die Suche hier gelandet bist, kommst du am schnellsten weiter, indem du zum vorherigen oder nächsten Beitrag dieser Serie springst.
Vorheriger
female-portrait-director: Porträt-Prompts in ein wiederverwendbares Skill verwandeln
female-portrait-director ist ein Open-Source-Projekt (V1.4.1, MIT), das KI-Porträt-Prompts in ein wiederverwendbares Skill verwandelt. Dieser Artikel zerlegt Parameter-Locking, On-Demand-Routing, regiebasierte Erweiterung und Sicherheitsgrenzen und zeigt eine 5-Schritte-Methode, um eigene Prompts in ein Skill zu überführen.
Teil 3 von 4
Nächster
Dies ist bisher der neueste Beitrag dieser Serie.
Ähnliche Beiträge
Continuum und die Wahl einer Agent-Runtime: 7 Fähigkeiten, die vom Notebook bis zur Produktion zählen
Continuum und die Wahl einer Agent-Runtime: 7 Fähigkeiten, die vom Notebook bis zur Produktion zählen
guizang-social-card-skill: Xiaohongshu-Posts und WeChat-Cover als Fließband
guizang-social-card-skill: Xiaohongshu-Posts und WeChat-Cover als Fließband
Mnemo als lokale Memory-Schicht: portables Gedächtnis für Ollama und eigene LLM-Apps
Kommentare
Melde dich mit GitHub an, um einen Kommentar zu hinterlassen