Die Architektur eines auditierbaren agentischen Systems

Ein Coding-Agent, der ein One-Shot-Skript schreibt, ist ein anderes Artefakt als ein agentisches System, das Ihren Betrieb fährt. Das erste ist Wegwerf-Code. Das zweite ist Produktions-Infrastruktur, mit den Constraints, die Produktions-Infrastruktur mit sich bringt: Auditierbarkeit, Observability, Versionierung, Regressions-Disziplin, tier-zugeordnete Autonomie, EU-Datenresidenz.
Aunomo ist das Substrat für den zweiten Fall. Fünf architektonische Entscheidungen unterscheiden es.

1. Narrow Agents, keine Domain-Banner

Ein „Marketing-Agent", der E-Mails entwirft, Kampagnen plant und Performance analysiert, sind drei Agents, die so tun, als wären sie einer. Jede Capability hat ihr eigenes Input-Schema, ihren eigenen Output, ihre eigene Eval-Rubric, ihren eigenen Failure-Mode. Die Kollabierung in ein Domain-Banner führt dazu, dass der Agent aufgebläht ist, Evaluation unmöglich (welche Achse messen Sie?) und Failure opak (welche Capability brach?).

Aunomo-Agents sind use-case-spezifisch. Jeder macht eine Sache mit definiertem Input und Output. Jeder hat sein eigenes Goldset und seine eigene Eval-Rubric. Jeder scheitert oder gelingt unabhängig. Das Fleet wächst durch Komposition, nicht durch Scope-Ausweitung eines einzelnen Agents.

2. Vier-Schichten-Evaluation

Jeder Output durchläuft vier unabhängige Evaluatoren, bevor er den Operator erreicht:
- Schicht 1 — Schema. Deterministische Schema-Validierung. Der Output muss der getypten Form entsprechen. Kein LLM-Judge.

- Schicht 2 — Brand Voice. Ein schnelles Modell bewertet, ob die Prosa der Markenstimme entspricht. Verbotene Begriffe, erforderlicher Register, Tonkonsistenz.

- Schicht 3 — Content-Qualität. Ein größeres Modell bewertet Content-Qualität gegen eine kalibrierte Rubric: Practical Value, faktische Plausibilität, strukturelle Integrität.

- Schicht 4 — Human Spot-Check. Eine Stichprobe der Outputs erreicht einen Operator zur direkten Review. Die Stichproben-Rate ist tier-zugeordnet.

Jede Schicht kann ein Regressions-Signal unabhängig von den anderen produzieren. Goldsets pro Agent tracken Qualität über die Zeit. Eine Prompt-Änderung, die Schicht 3 verbessert aber Schicht 2 fallen lässt, ist sofort sichtbar.

3. Tier-zugeordnete Autonomie

Autonomie ist nicht binär. Das System unterstützt vier Stufen:
- T1 — Aunomo-managed. Der Operator liest Outputs.

- T2 — Active Guidance. Der Operator genehmigt jede vorgeschlagene Aktion.

- T3 — Autonomous Optimization. Routine-Vorschläge auto-genehmigt per konfigurierter Regeln; hochwirksame Vorschläge erfordern Operator-Genehmigung.

- T4 — Embedded. Der Operator delegiert Genehmigungs-Authority innerhalb bounded Policies. Aunomo-Agents operieren unter dieser Delegation.

Die Stufe wird zur Write-Zeit vom Kernel durchgesetzt, nicht zur Read-Zeit vom UI. Die Operator-Inbox surfacet nur Vorschläge, die die Stufe des Operators zur Adressierung erfordert. Auto-entschiedene Vorschläge schreiben weiterhin in den Audit-Log mit der gefeuerten Regel.

4. EU-Datenresidenz, nicht nur EU Server

Aunomos LLM-Calls routen durch Google Vertex AI in europe-west4 und europe-west1, Anthropic über deren EU-Data-Plane und Aunomo-betriebene Infrastruktur in EU-Regionen. PrivacyGuard-Middleware greift vor jedem LLM-Call — sensitive Muster (Namen, IBANs, Steuernummern, DATEV Beraternummer, Mandantennummer, Personalnummer) werden redacted, bevor sie eine Modell-Grenze überschreiten.
Für Kunden, die stärkere Garantien benötigen, läuft die Embedded-Deployment-Option die gesamte Instanz auf der Infrastruktur des Kunden. Outbound-only Tunnel für operative Konnektivität. Keine Kundendaten verlassen die Kunden-Infrastruktur.

5. Der Audit-Log ist die Source of Truth

Jede state-ändernde Operation schreibt in einen append-only Audit-Log. Jeder Integration-Call, jede Config-Änderung, jede Credential-Issuance, jede Operator-Entscheidung. Der Audit-Log ist abfragbar vom Kunden (per-Tenant View) und von Aunomo-Operatoren (tenant-scoped). Das Abfragen des Audit-Logs ist selbst ein Audit-Event.
Tier-T3+-Kunden sehen diese Oberfläche direkt. Ihre Compliance kann „was lief letzte Woche auf unseren Daten?" mit einer Abfrage beantworten.

Was das komponiert

Ein agentisches System, das Kunden betreiben, auditieren und vertrauen können. Die Architektur ist nicht neuartig als Pattern — schmale Agents, Eval-Frameworks, Audit-Logs sind etablierte Disziplin. Die Disziplin liegt im Nicht-Auslassen. Jedes einzelne Pattern hat Kosten; zusammen machen sie den Unterschied zwischen einer Coding-Agent-Demo und einem System, auf dem Sie ein Geschäft betreiben können.
Das Substrat kompoundiert. Jeder neue schmale Agent erbt den Kernel — das Eval-Framework, den Audit-Log, die PrivacyGuard-Middleware, die Integrations-Patterns, die tier-zugeordnete Autonomie. Der erste Agent kostet drei Tage konzentrierter Arbeit. Der zehnte Agent kostet weniger, weil das Substrat schon existiert. Der hundertste Agent, im Fleet eines Kunden, ist Integrationsarbeit auf einer bewiesenen Grundlage.
Das ist die Architektur, auf der Solopreneurs, kleine Teams und wachsende KMU ihren Betrieb laufen lassen können, ohne Auditierbarkeit, Datensouveränität oder Operator-Kontrolle aufzugeben.