8. Dezember 2025

Black Box AI?

So auditierst Du Deine Sprachmodelle

Generative AI hat in den meisten Unternehmen die reine Experimentierphase verlassen. Die strategische Frage verschiebt sich nun von der technologischen Machbarkeit hin zur betrieblichen Verlässlichkeit.

„Was ist möglich?“ versus „Was ist sicher und skalierbar?“

Um halluzinierende KI oder das Verwenden unkontrollierter Quellen zu vermeiden, wird technisch meist auf RAG (Retrieval Augmented Generation) zurück gegriffen – eine Methode, die Sprachmodelle mit eigenem Firmenwissen verknüpft. Das kann man sich wie eine Prüfung vorstellen, in die man Nachschlagewerke mitnehmen darf: Anstatt zu raten, sucht das System die passenden internen Dokumente (z.B. Wartungshandbücher oder Richtlinien) heraus und generiert basierend auf diesen Fakten die Antwort. Damit Unternehmen hierbei nicht nur dem Hype folgen, sondern nachhaltige Produktivsysteme aufbauen, braucht es neben dem Business Case vor allem eines: Handwerk.

Herausforderung: inhaltliche Qualitätskontrolle von Textergebnissen

Im klassischen Data Science (z.B. bei Umsatzprognosen) sind Evaluierungsmetriken wie Genauigkeit oder Fehlerquote selbstverständlich. Man weiß sofort, ob ein Modell funktioniert. Bei Sprachmodellen (LLMs) fehlt diese Disziplin oft.
Das Problem: Textqualität jenseits der Rechtschreibprüfung ist schwer zu messen, denn Sprache wirkt subjektiv. Ein Text klingt vielleicht „ganz gut“ – aber ist er auch faktisch korrekt und vollständig? Ohne klare Metriken gleicht der Rollout einem Blindflug.

Die Lösung: Die RAG-Triad

Um die Qualität von Sprachmodellen professionell zu bewerten, hat sich die RAG-Triad als Industriestandard etabliert. Sie bewertet die Güte von Antworten anhand drei (daher Triade) messbarer Komponenten und macht die „Black Box“ transparent.

So funktioniert die Diagnose:

Kontext-Relevanz

Frage: Werden überhaupt die richtigen Dokumente in der Datenbank gefunden?
Szenario: Gefragt wird nach der „Reisekostenrichtlinie 2024“, aber die AI erhält vom Suchalgorithmus das Dokument für „Brandschutzmaßnahmen“.
Diagnose: Ein schlechter Wert bedeutet hier nicht, dass die AI (das LLM) versagt, sondern die Suchmaschine (Retrieval). Das LLM hat keine Chance, richtig zu antworten.

Faktentreue (Groundedness)

Frage: Hält sich die Antwort strikt an die gefundenen Fakten oder wird etwas hinzugedichtet?
Szenario: Die AI findet das richtige Dokument („Budget: 50.000€“), antwortet aber: „Das Budget beträgt 100.000€“.
Diagnose: Eine klassische Halluzination. Hier muss am Prompt Engineering oder der Temperature des Modells gearbeitet werden. In Compliance-Bereichen ist dies die wichtigste Metrik.

Antwort-Relevanz

Frage: Wird die gestellte Frage tatsächlich beantwortet?
Szenario: Gefragt ist „Ja oder Nein?“, doch die AI generiert einen dreiseitigen Aufsatz über Hintergründe, ohne sich festzulegen.
Diagnose: Die Antwort mag faktisch richtig sein (hohe Faktentreue), geht aber am Thema vorbei. Das senkt die Akzeptanz bei den Nutzern massiv.

Die Implementierung dieser Metriken ist kein akademischer Selbstzweck

RAG-Triad ermöglicht gezieltes Debugging. Anstatt pauschal zu urteilen „Der Chatbot funktioniert nicht gut“, lässt sich durch die RAG-Triad exakt diagnostizieren: „Die Suche ist präzise (Hohe Kontext-Relevanz), aber das Modell halluziniert bei Zahlen (Niedrige Faktentreue).“

Nur wer misst, kann optimieren – und den ROI der AI-Initiative sicherstellen.

Kommt Dir das Problem bekannt vor? Besuche uns in der kostenlosen AI Sprechstunde, um uns zu schildern, wo der Schuh drückt.