Prompt Tracking: Wie ihr KI-Empfehlungen messt, ohne euch selbst zu belügen

Kurz & Knapp

Prompt Tracking sollte wie Umfrageforschung verstanden werden: Es misst Kaufsituationen, nicht einzelne Prompts, um realistische Einblicke in die Marktposition zu gewinnen.
Die Methode basiert auf der Analyse von Kaufsituationen in vier Stufen, um Bekanntheit, Passung und Markenwahrnehmung zu evaluieren, und nutzt wiederholte Stichproben für belastbare Ergebnisse.
Um valide Ergebnisse zu erzielen, müssen Buyer Personas erstellt, Prompts in Journeys übersetzt, systematisch gemessen und die Daten kontinuierlich validiert und angepasst werden.

Prompt Tracking hat gerade einen schlechten Ruf, und der ist teilweise verdient. Der übliche Einwand: Gib denselben Prompt fünfmal ein und du bekommst fünf verschiedene Antworten — wer eine einzelne Abfrage als Score behandelt, misst Rauschen und nennt es Sichtbarkeit. Stimmt. Aber die Schlussfolgerung "also ist Prompt Tracking nutzlos" ist genauso falsch wie die Dashboards, die sie provoziert haben.

Der Fehler liegt nicht im Messen, sondern im mentalen Modell dahinter. Die meisten behandeln Prompt Tracking wie Rank Tracking: ein Keyword, eine Position, ein Verlaufschart. Dieses Modell passt nicht, weil es in KI-Antworten keine Positionen gibt, kein Suchvolumen für Prompts und keine zwei identischen Antworten. Das richtige mentale Modell ist ein anderes: Umfrageforschung. Ein Wahlforscher fragt auch nicht eine Person und verkündet das Ergebnis. Er zieht wiederholte Stichproben aus einer definierten Population, mit fester Methodik, und gibt Ergebnisse mit Unsicherheitsbereich an. Genau so funktioniert belastbares Prompt Tracking — nur dass eure "Befragten" simulierte Kaufsituationen sind.

In diesem Artikel zeige ich die Methode, mit der ich das für Kundenprojekte und für meine eigenen Produkte aufsetze. Sie hat fünf Schritte, und sie beginnt nicht bei den Prompts — sondern bei den Käufern.

Das Grundprinzip: Ihr messt Kaufsituationen, nicht Prompts

Niemand kennt die echten Prompts eurer Käufer. Es gibt kein Suchvolumen dafür, und die Kombinationsmöglichkeiten gehen in die Millionen — jede Behauptung vom Gegenteil ist Dashboard-Theater. Was ihr aber kennen könnt: die Kaufsituationen dahinter. Ein Maschinenbauer, der einen Pitch verloren hat, weil der Kunde sich von ChatGPT eine Shortlist geben ließ. Eine Marketingleiterin, die 8.000 Euro Agentur-Retainer rechtfertigen soll. Ein SaaS-Gründer, dessen neue Features in KI-Antworten schlicht nicht existieren.

Eine Kaufsituation lässt sich auf hundert Arten formulieren — aber sie bleibt dieselbe Situation, mit denselben Constraints und demselben Entscheidungsproblem. Also messt ihr nicht "diesen einen Prompt", sondern zieht eine Stichprobe aus dem Raum aller Formulierungen, mit denen diese Situation plausibel beschrieben wird: fünf bis zehn Paraphrasen pro Kaufsituation, wiederholt abgefragt, über alle relevanten Systeme. Die Frage ist dann nicht mehr "Stehen wir bei Prompt X auf Antwort-Position Y?", sondern: "Mit welcher Wahrscheinlichkeit werden wir in dieser Kaufsituation empfohlen — und die Wettbewerber?" Das ist eine Frage, die sich seriös beantworten lässt.

Die Prompt-Treppe: von breit bis hart eingegrenzt

Innerhalb jeder Kaufsituation messe ich auf vier Stufen, weil jede Stufe etwas anderes über euch verrät. Käufer durchlaufen diese Stufen übrigens auch real — niemand promptet als Erstes den Kategoriebegriff.

Stufe 1 — der breite Prompt. "Welche Anbieter für Schichtplanungssoftware gibt es?" Keine Constraints, kein Kontext. Hier gewinnt Bekanntheit: Das Modell hat wenig Anhaltspunkte und greift zu den Marken mit dem größten Fußabdruck im Netz. Wenn ihr hier fehlt, habt ihr ein Bekanntheitsproblem — das ist normal und für kleinere Anbieter kurzfristig kaum zu ändern. Diese Stufe ist eure Realitätsprüfung, nicht euer Optimierungsziel.

Stufe 2 — der leicht eingegrenzte Prompt. "Schichtplanungssoftware für Pflegeeinrichtungen, DSGVO-konform" — ein, zwei Filter kommen dazu. Hier beginnt das Spiel zu kippen: Das Modell muss jetzt Passung prüfen, nicht nur Bekanntheit abrufen. Spezialisierte Anbieter tauchen erstmals auf, generische große fallen teilweise raus.

Stufe 3 — der hart eingegrenzte Prompt. "Wir sind ein Pflegeheim-Verbund mit 12 Einrichtungen, Betriebsrat, vielen Teilzeitkräften und einem zweiköpfigen IT-Team. Wir brauchen eine Schichtplanung, die Mitarbeiter-Wunschdienste abbildet und sich ohne Projektagentur einführen lässt. Was kommt infrage?" Das ist die wertvollste Stufe — aus zwei Gründen. Erstens ist sie die kaufnächste: Wer so promptet, evaluiert. Zweitens ist sie für kleinere Anbieter die gewinnbarste: Hier zählt nicht Fußabdruck, sondern ob im Netz explizite Belege existieren, dass ihr genau diese Constraints bedient. Ein einziger präziser Absatz auf eurer Website kann hier den Unterschied machen, wo auf Stufe 1 keine Kampagne hilft.

Stufe 4 — der Validierungs-Prompt. "Wer ist [euer Unternehmen]? Erfahrungen?" Die vergessene Stufe. Nach jeder Empfehlung — und nach jedem anderen Erstkontakt — prüfen Käufer die Marke direkt in der KI. Was das Modell hier über euch sagt, entscheidet, ob aus der Nennung ein Erstgespräch wird. Falsche oder dünne Antworten auf dieser Stufe kosten euch Anfragen, von denen ihr nie erfahrt.

Der Treppen-Effekt in der Auswertung: Vergleicht eure Nennungsrate über die Stufen. Stark auf Stufe 3, unsichtbar auf Stufe 1 heißt: Passung vorhanden, Bekanntheit fehlt — die Arbeit liegt bei Erwähnungen und PR. Sichtbar auf Stufe 1, aber raus auf Stufe 3 heißt: bekannt, aber eure Eignung für konkrete Situationen ist nirgends expliziert — die Arbeit liegt auf euren eigenen Seiten. Zwei komplett verschiedene Maßnahmenpläne, und ohne die Treppe könnt ihr sie nicht unterscheiden.

Schritt 1: Buyer Personas bauen — aus Daten, oder ehrlich aus Annahmen

Die Prompts der Stufen 2 und 3 könnt ihr nicht erfinden — ihr müsst wissen, welche Constraints, welches Vokabular und welche Auslöser eure Käufer real haben. Dafür braucht ihr Personas. Nicht die Marketing-Poster-Variante mit Namen und Stockfoto, sondern ein nüchternes Datenobjekt pro Käufertyp:

Rolle und Kontext: Funktion, Unternehmensgröße, Branche, Teamsituation
Auslöser: das konkrete Ereignis, das die Suche startet (verlorener Pitch, Budget-Review, Abmahnung beim Wettbewerber, neues Compliance-Erfordernis)
Vokabular: die Wörter, die diese Person benutzt, bevor sie eure Kategorie kennt — Käufer prompten ihr Symptom, nicht euren Fachbegriff
Constraints: Budgetrahmen, Teamgröße, "kein Retainer", Datenschutz, Integrationszwänge
Einwände: was diese Person im Verkaufsgespräch typischerweise zurückhält

Wenn ihr Daten habt, kommen die Personas von dort: Transkripte aus Sales- und Intro-Calls (die wörtlichen Formulierungen sind Gold — genau so promptet die Person auch), CRM-Notizen zu Einwänden, Won/Lost-Gründe, Support-Anfragen, die Suchbegriffe aus der Google Search Console, mit denen Leute heute schon bei euch landen. Drei bis fünf Personas reichen; mehr verwässert die Messung.

Wenn ihr noch keine Daten habt — junges Produkt, neue Zielgruppe — arbeitet ihr mit Annahmen. Das ist völlig legitim, unter einer Bedingung: Ihr kennzeichnet jede Annahme als Annahme. Praktisch heißt das: Ihr füllt dasselbe Persona-Objekt aus, aber jedes Feld bekommt einen Status — belegt (aus echtem Material) oder Hypothese (plausibel angenommen). Quellen für gute Hypothesen gibt es genug: Stellenanzeigen eurer Zielkunden (dort steht, welche Probleme die Rolle lösen soll, in deren eigener Sprache), Branchenforen und LinkedIn-Diskussionen, Bewertungen von Wettbewerber-Produkten (die Beschwerden dort sind die Constraints eurer Stufe-3-Prompts), Gespräche mit den ersten fünf Interessenten, auch wenn sie nicht gekauft haben. Eine Hypothesen-Persona ist kein minderwertiges Provisorium — sie ist der Startpunkt eines Validierungs-Loops. Gefährlich wird sie nur, wenn ihr vergesst, dass sie eine Hypothese ist.

Schritt 2: Aus Personas werden Journeys, aus Journeys werden Prompt-Sets

Pro Persona definiert ihr ein bis zwei Kaufsituationen und baut daraus die Prompt-Kette über die vier Stufen. Wichtig dabei: in der Sprache der Persona, nicht in eurer. Wenn eure Hypothese lautet, dass die Marketingleiterin im Maschinenbau "KI-Sichtbarkeit" noch gar nicht als Begriff kennt, dann startet ihre Journey bei "Kunde sagt, ChatGPT hat ihm einen anderen Anbieter empfohlen — was tun?" und nicht bei eurem Kategoriebegriff. Pro Stufe formuliert ihr dann die Paraphrasen — fünf bis zehn Varianten derselben Situation, von knapp bis ausführlich, mal mit, mal ohne einzelne Constraints. Ein LLM nimmt euch diese Fleißarbeit ab; die Qualitätskontrolle ("Würde diese Person das wirklich so schreiben?") bleibt bei euch.

Ein realistischer Gesamtumfang: 4 Personas × 1–2 Kaufsituationen × 4 Stufen ergibt 20–30 Kern-Kaufsituationen, mit Paraphrasen vielleicht 100–150 Einzelabfragen pro System und Messrunde. Das klingt nach viel, ist aber per API ein automatisierter Durchlauf — und deutlich weniger als die Tausenden generischen Prompts, mit denen manche Tools Vollständigkeit simulieren.

Schritt 3: Messen wie ein Umfrageinstitut, nicht wie ein Rank Tracker

Vier Regeln machen aus den Abfragen eine belastbare Messung:

Wiederholung statt Einzel-Run. Jede Paraphrase mehrfach abfragen (drei- bis fünfmal pro Runde). Berichtet wird die Nennungsrate über alle Runs einer Kaufsituation — "in 14 von 20 Durchläufen empfohlen" — nicht das Ergebnis einer Einzelabfrage. Die Schwankung ist dann kein Messfehler mehr, sondern Teil des Befunds: Ein Anbieter, der in 95 % der Läufe genannt wird, ist anders verankert als einer mit 40 %.

Getrennte Panels pro System. ChatGPT, Claude, Gemini, Perplexity und Google AI Mode sind verschiedene Populationen mit verschiedenen Quellen-Vorlieben. Niemals zu einem Gesamt-Score mitteln — ein Durchschnitt über Systeme verdeckt genau die Information, die ihr für Maßnahmen braucht (etwa: AI Mode hängt an euren Google-Rankings, ChatGPT an der Quellenlage im offenen Netz).

Fester Wortlaut, feste Kadenz, dokumentierte Änderungen. Monatlich, identische Prompts. Das Set weiterentwickeln ist erlaubt und nötig — aber maximal ein, zwei Änderungen pro Quartal, protokolliert, sonst vergleicht ihr Äpfel mit letzten Monat anders formulierten Äpfeln.

Rohantworten aufheben. Jede vollständige Antwort wird gespeichert, nicht nur das extrahierte Ergebnis. Erstens könnt ihr Befunde dann auditieren statt glauben. Zweitens sind die Rohantworten selbst die wertvollste Datenquelle — siehe nächster Schritt.

Schritt 4: Antworten auswerten wie früher eine Suchergebnisseite

Die Nennungsrate ist nur die oberste Schicht. Der eigentliche Erkenntniswert steckt in dem, was die Antworten sonst noch enthalten. Pro Antwort erfasse ich strukturiert:

Antwort-Typ: Empfiehlt das Modell konkrete Anbieter? Erklärt es nur und zitiert Quellen? Oder gibt es einen Fahrplan ohne Anbieter aus ("Suchen Sie auf LinkedIn nach...")? Jeder Typ verlangt eine andere Reaktion.
Genannte Entitäten: Wer wird empfohlen, mit welcher Begründung? Das ist euer reales Competitive Set — oft ein anderes als das, das ihr im Kopf habt.
Zitierte Quellen: Worauf stützt sich die Antwort? Diese Liste ist eure spätere Outreach-Liste.
Abgefragte Kriterien: Welche Auswahlkriterien nennt das Modell, welche Rückfragen stellt es dem Nutzer? Das sind die Filter, durch die ihr in der nächsten Gesprächsrunde fliegen könnt — und jedes Kriterium, das eure Website nicht explizit beantwortet, ist eine konkrete Content-Aufgabe.
Aussagen über euch: Wie beschreibt euch das Modell? Stimmen die Fakten? Falsche Aussagen sind ein eigener Maßnahmen-Typ (Fakten-Seite, Drittquellen korrigieren).

Schritt 5: Personas mit echten Daten validieren und nachschärfen

Hier schließt sich der Kreis — und hier trennt sich die Methode endgültig vom Dashboard-Denken. Eure Personas waren teils Hypothesen. Jede Messrunde und jeder echte Kundenkontakt liefert Material, um sie zu prüfen:

Aus der Messung selbst: Fragen die Modelle Kriterien ab, die in eurer Persona gar nicht vorkamen? Dann fehlt der Persona ein Constraint — nachtragen. Benutzen die Modelle konsequent andere Rollen- und Kategoriebegriffe als eure Persona? Dann promptet der Markt vermutlich anders, als ihr angenommen habt — Vokabular-Feld anpassen, Paraphrasen erweitern.

Aus echten Kontakten: Stellt in jedem Intro-Call zwei Fragen — "Wie habt ihr uns gefunden?" und, wenn KI im Spiel war, "Wisst ihr noch ungefähr, was ihr gefragt habt?" Die Antworten sind die einzigen echten Prompt-Daten, die ihr je bekommen werdet. Gleicht sie gegen eure simulierten Journeys ab: Trefft ihr Auslöser, Vokabular und Constraints, oder promptet die Realität anders? Dazu: neue Einwände aus dem Vertrieb (jeder Einwand ist ein Kandidat für ein Persona-Feld und einen Stufe-3-Constraint), Won/Lost-Gespräche, LLM-Referral-Traffic auf den umsatzrelevanten Seiten, Entwicklung der Markensuchen.

Die Disziplin dabei: Persona-Änderungen werden versioniert wie das Prompt-Set — was wurde geändert, auf welcher Datenbasis, wann. Ein Feld wechselt von Hypothese auf belegt, wenn es zweimal unabhängig bestätigt wurde. So wird aus der anfänglichen Annahmen-Persona über zwei, drei Quartale ein datengestütztes Modell eurer Käufer — und zwar eines, das nebenbei auch eurem Vertrieb und eurer Produktentwicklung dient, nicht nur dem Tracking.

Was diese Methode nicht kann

Der Vollständigkeit halber, weil Methodenehrlichkeit hier das Produkt ist: Simulierte Kaufsituationen sind ein Modell des Marktes, nicht der Markt. API-Antworten weichen von den Consumer-Oberflächen ab, Personalisierung und Gesprächsverlauf echter Nutzer seht ihr nie, und einzelne Systeme lassen sich nur manuell sauber messen. Eine Wahlumfrage ist auch nicht die Wahl — sie ist trotzdem das beste verfügbare Instrument, solange Stichprobe, Methode und Unsicherheit offenliegen. Misstraut jedem, der euch mehr verspricht: exakte Prompt-Volumina, stabile "AI-Rankings", einen einzigen Score. Das ist die Stelle, an der aus Messung Theater wird.

Was die Methode dafür leistet: Sie macht aus der diffusen Frage "Sind wir in KI sichtbar?" eine Reihe beantwortbarer Fragen — in welchen Kaufsituationen, auf welcher Stufe der Treppe, gegen wen, gestützt auf welche Quellen, mit welchem Trend. Und sie produziert in jeder Runde automatisch das Arbeits-Backlog: unbeantwortete Kriterien, fehlende Quellen, falsche Markenaussagen. Messung und Maßnahme sind dasselbe System.

Wenn ihr das für euer Unternehmen aufsetzen wollt und wissen möchtet, ob sich der Aufwand in eurer Konstellation lohnt: Im kostenlosen Intro-Call (15 Minuten, kein Pitch) schauen wir auf eure Ausgangslage — und ich sage ehrlich, ob ihr das mit eurem Team selbst stemmen könnt oder wo Unterstützung den Unterschied macht.

Prompt Tracking: Wie ihr KI-Empfehlungen messt, ohne euch selbst zu belügen

Kurz & Knapp

Das Grundprinzip: Ihr messt Kaufsituationen, nicht Prompts

Die Prompt-Treppe: von breit bis hart eingegrenzt

Schritt 1: Buyer Personas bauen — aus Daten, oder ehrlich aus Annahmen

Schritt 2: Aus Personas werden Journeys, aus Journeys werden Prompt-Sets

Schritt 3: Messen wie ein Umfrageinstitut, nicht wie ein Rank Tracker

Schritt 4: Antworten auswerten wie früher eine Suchergebnisseite

Schritt 5: Personas mit echten Daten validieren und nachschärfen

Was diese Methode nicht kann

Das könnte dich auch interessieren

SEO Sparring: Was es ist, wann es der richtige Hebel ist — und wann nicht

Gute GEO-Beratung für B2B-Unternehmen: So würde ich wählen

Von Keyword zu Empfehlung: So wirst du im B2B von KI-Suchmaschinen empfohlen (GEO Tutorial)

Bleib auf dem Laufenden