Verwenden von Rubriken in Tests

Sie können Rubriken in zwei verschiedenen Modi innerhalb der Testautomatisierung von Copilot Studio Kit verwenden. Das Verständnis des Unterschieds zwischen diesen Modi ist für die effektive Verwendung des Features "Rubrikenverfeinerung" unerlässlich.

Modi der Rubrikennutzung

Die Rubrikennutzung im Copilot Studio Kit arbeitet in zwei Modi:

Aspekt	Testmodus (Testfallstufe)	Einschränkungsmodus (Testlaufstufe)
Purpose	Regelmäßige Testautomatisierung mit benutzerdefinierter Benotung	Iterative Rubrik Überarbeitung
Zuordnungsebene	Einzeltestfall	Gesamter Testlauf
Anwendungsfall	Fortlaufende Qualitätssicherung	Beim Verfeinern der Rubrikenqualität
KI-Begründung	Bewertung allein (kostengünstig)	Bewertung: detaillierte Begründung (teurer)
Bestehensnote	Bestimmt das Übergeben oder Fehlschlagen	Nur Informationsindikator
Ziel	Identifizieren von Antworten mit niedriger Qualität	Minimierung der Fehlausrichtung zwischen KI und Mensch

Testmodus: Rubriken auf Testfallebene

Der Testmodus wurde für die regelmäßige Verwendung einer optimierten Rubrik entwickelt, um die Benotung von Generative Answer-Testfällen zu automatisieren.

Verwenden des Testmodus

Verwenden Sie die Rubriken auf Testfallebene im Copilot Studio Kit, wenn Sie:

Haben Sie eine verfeinerte, vertrauenswürdige benutzerdefinierte Rubrik bereit für die regelmäßige Verwendung.
Möchten Sie Qualitätsprüfungen für generative Antwortantworten in vorhandenen Testsätzen automatisieren.
Benötigen Sie benutzerdefinierte Auswertungskriterien, die über die Standardüberprüfung im Copilot Studio Kit hinausgehen.

Zuweisen einer Rubrik auf Testfallebene

So weisen Sie eine Rubrik auf Testfallebene zu:

Öffnen oder erstellen Sie einen Testfall mit Testtyp , der als generative Antworten festgelegt ist.
Wählen Sie in der Dropdownliste "Rubrik " eine Rubrik aus. Wenn Sie eine Rubrik auswählen, wird das Feld " Antwort-/Validierungsanweisungen erwartet " ausgeblendet, da die Rubrik standardmäßige Gültigkeitsprüfungslogik ersetzt.
Legen Sie die Bestehensgrenze fest.
Wählen Sie Speichern aus.

Funktionsweise einer Rubrik auf Testfallebene

Wenn Sie eine Rubrik auf Testfallebene zuweisen, gehen Sie wie folgt vor:

Ersetzt die Standardüberprüfung: Der rubrikbasierte KI-Grader ersetzt die standardmäßige Validierungslogik für generative Antworten.
Wertet die Antwort aus: Der KI-Richter bewertet die Antwort des Agenten anhand der Rubrikenkriterien.
Weist eine Noten zu: Eine Bewertung von 1 bis 5 wird basierend auf der Rubrik generiert.
Bestimmt das Bestehen oder Durchfallen:
- Pass: Note ist größer oder gleich der Bestehensnote.
- Nicht bestanden: Der Notenwert ist kleiner als der Schwellenwert für die Bestehensgrenze.
Kein detaillierter Grund: Um die Kosten niedrig zu halten, wird nur die Noten bereitgestellt, nicht die Begründung.

Legen Sie die Mindestbestehensnote fest

Die Passnote legt die mindest akzeptable Qualitätsstufe fest:

Noten bestanden	Beschreibung	Anwendungsfall
5 (Standard)	Nur beispielhafte Antworten bestehen	Sie benötigen höchste Qualitätsstandards
4	Starke oder bessere Antworten übergeben	Sie akzeptieren qualitativ hochwertige Antworten mit Möglichkeit für geringfügige Verbesserungen.
3	Akzeptable oder bessere Antworten übergeben	Sie benötigen Antworten, die den Mindestfunktionsanforderungen entsprechen
2	Schwache oder bessere Antworten werden akzeptiert	Sie setzen einen sehr niedrigen Maßstab (selten empfohlen)
1	Alle Antworten bestehen die Prüfung, mit Ausnahme der schlechtesten.	Fast nie geeignet für die Qualitätssicherung

Verwenden Sie für die meisten Anwendungsfälle zur Qualitätssicherung die Bewertungsstufe 5 oder 4, um hohe Standards aufrechtzuerhalten.

Zweck des Testmodus

Der Testmodus hilft Ihnen bei:

Identifizieren Sie antworten mit niedriger Qualität , die Aufmerksamkeit benötigen.
Automatisieren Sie Regressionstests mit konsistenten Bewertungskriterien.
Skalierung der Qualitätssicherung in vielen Testfällen.
Wenden Sie domänenspezifische Standards an , die keine generische Überprüfung erfassen können.

Der Einschränkungsmodus unterstützt den iterativen Prozess der Erstellung und Verbesserung einer Rubrik durch Vergleich der KI-Benotung mit der menschlichen Benotung.

Verwenden Sie die Rubriken für Testlaufebenen im Copilot Studio Kit, wenn Sie:

Erstellen oder Verfeinern einer Rubrik.
Wir müssen die KI-Abstimmung mit dem menschlichen Urteil in Einklang bringen.
Sie möchten KI- und menschliche Bewertungen vergleichen.
Iterieren Sie, um die Rubrikenqualität zu verbessern.

Zuweisen einer Rubrik auf Testlaufebene

So weisen Sie eine Rubrik auf Testlaufebene zu:

Öffnen oder Erstellen einer Testausführung.
Wählen Sie in der Dropdownliste "Rubrik " eine Rubrik aus.
Legen Sie die Bestehensnote fest. Der Standardwert ist 5 - (Exemplarisch). Dieser Wert ist nur im Verfeinerungsmodus informativ, da das Ziel die Ausrichtung ist und nicht das Erreichen von Punktzahlen.
Wählen Sie "Speichern" aus, und führen Sie die Testausführung aus.

Funktionsweise einer Rubrik auf Testlaufebene

Wenn Sie auf Testlaufebene eine Rubrik zuweisen, hat dies folgende Auswirkungen:

Gilt für alle Generative Answer Tests: Die ausgewählte Rubrik setzt alle Rubriken außer Kraft, die auf Testfallebene festgelegt sind.
Überspringt Nicht-GA-Testtypen: Testfälle, die keine generativen Antworten sind, werden vollständig übersprungen.
Führt KI-Bewertungen mit Gründen aus: Der KI-Richter bietet beides:
- Note (1-5): Die Qualitätsbewertung
- Begründung: Ausführliche Begründung zur Erläuterung der Noten
aktiviert Verfeinerungsworkflow: Ergebnisse umfassen Felder für die menschliche Bewertung und Ausrichtungsindikatoren.
Ist teurer: Die Generierung detaillierter Rationale erhöht die KI-Verarbeitungskosten.

Verständnis der Bestehensnote

Im Verfeinerungsmodus ist die Übergabenote nur informativ, nicht das Ziel.

Zweck: Die Bestehensgrenze hilft Ihnen dabei, herauszufinden, welche Antworten unter Ihrem Zielwert liegen.
Nicht das Ziel: Das Ziel der Verfeinerung besteht darin, die Fehlausrichtung zwischen KI und menschlichen Noten zu minimieren, nicht um alle Antworten zu übergeben.
Beispiel: Wenn Sie die Bestehensnote auf 5 festlegen und die KI eine Note von 3 vergibt, zeigt Ihnen diese Note, dass diese Antwort Ihrem Standard nicht entspricht. Aber was wichtig ist, ist, ob der Mensch es auch als 3 (Ausrichtung) oder anders benotet (Fehlausrichtung).

Rubrik auf Testfallebene ausgewählt	Rubrik auf Testlaufebene ausgewählt	Keine Rubrik ausgewählt
Der Testlauf läuft normal mit allen Testtypen weiter. Das KI-Bewertungssystem bietet nur Noten (keine Begründung) zur Kostenersparnis. Nur Testfälle mit zugewiesenen Rubriken verwenden KI-Benotung; andere verwenden die Standardüberprüfung. In der Ergebnisansicht werden standardtestergebnisse angezeigt.	Der Testlauf dient speziell der Überarbeitung der Rubrik. KI-Grader bietet Bewertung und Begründung für Generative Antwort Tests. Testtypen für nicht generierende Antworten werden übersprungen. Überprüfungsanweisungen auf Testfallebene werden ignoriert. Die Ergebnisansicht zeigt die Rubrikverfeinerungsschnittstelle, die Felder zur Bewertung durch Menschen enthält.	Die Überprüfung standardmäßiger generativer Antworten wird angewendet (Meta-Prompt + Validierungsrichtlinien). Bestanden oder nicht bestanden, bestimmt durch vorhandene Validierungslogik. In der Ergebnisansicht werden standardtestergebnisse angezeigt.

Verhaltensnotizen

Im Folgenden finden Sie einige wichtige Verhaltenshinweise, die Sie verstehen sollten, wenn Sie Rubriken in verschiedenen Modi verwenden:

Rubrikhierarchie und Außerkraftsetzungen

Rubrikenüberschreibungen auf der Ebene des Testlaufs überschreiben die Rubriken auf der Ebene des Testfalls: Wenn Sie eine Rubrik auf der Ebene des Testlaufs auswählen, gilt sie für alle Generative-Antwort-Testfälle, während alle anderen Rubriken ignoriert werden, die einzelnen Testfällen zugewiesen sind.
Rubriken auf Testfallebene sind unabhängig: Wenn Sie keine Rubrik auf Testlaufebene auswählen, verwendet jeder Testfall eine eigene Rubrik (sofern zugewiesen) oder eine Standardüberprüfung (falls nicht).

Nicht-generative Antworttesttypen

Wenn Sie auf Testlaufebene eine Rubrik auswählen:

Nicht-GA-Testtypen werden übersprungen: Rubriken gelten nur für Generative Answer-Testfälle.
Rationale: Rubriken sind für die Auswertung von generativen Antworten konzipiert, nicht für andere Testtypen wie Aktion, Thema oder Unterhaltungsfluss.

Wenn Rubrik auf Testfallebene ausgewählt ist:

Nicht-GA-Testtypen werden normal ausgeführt: Nur ein bestimmter Generative Answer-Testfall verwendet die Rubrik.

Validierungsanweisungen und Rubriken

Gegenseitig ausschließend: Sie können keine rubrikbasierten Benotungs- und Validierungsanweisungen zusammen verwenden.
Wenn Sie eine Rubrik auswählen: Das Feld "Validierungsanweisungen " ist ausgeblendet (Testfallebene) oder ignoriert (Testlaufstufe).
Begründung: Der Kriterienkatalog ersetzt die Gültigkeitsprüfungslogik vollständig.

Kostenaspekte

Modus	KI-Benotungstyp	Cost	Wann verwenden
Testmodus (Testfall)	Nur Bewertung	Niedriger	Regelmäßige Qualitätssicherung Tests mit hohem Volumen
Verfeinerungsmodus (Testausführung)	Note + Begründung	Höher	Rubriküberarbeitung Ausrichtungsanalyse Iterative Verbesserung bei geringem Volumen

Der typische Workflow verläuft von der Verfeinerung zum Testen.

Erstellen Sie eine erste Rubrik.
Weisen Sie eine Rubrik auf Testlaufebene zu.
Ausführen eines Testlaufs mit KI-Benotung plus Rationale.
Stellen Sie menschliche Bewertungen zur Verfügung.
Ausrichtung vergleichen.
Verfeinern Sie Kriterien basierend auf einer Diskrepanz.
Wiederholen Sie den Vorgang, bis die Ausrichtung akzeptabel ist.

Phase 2: Regelmäßige Tests (Testfallstufe)

Stellen Sie sicher, dass eine Rubrik verfeinert und vertrauenswürdig ist.
Weisen Sie eine Rubrik auf Testfallebene zu.
Verwenden Sie eine Rubrik in der laufenden Testautomatisierung.
KI-Benotung ohne Rationale (kostenwirksam).
Bestehen oder durchfallen basierend auf der Bestehensnote.
Kehren Sie zur Verfeinerung zurück, wenn Qualitätsprobleme auftreten.

Auswählen des richtigen Modus

Wählen Sie den Testmodus (Testfallebene) und den Einschränkungsmodus (Testlaufstufe) basierend auf Ihren aktuellen Zielen und dem Ort, an dem Sie sich im Lebenszyklus der Rubrikenentwicklung befinden.

Verwenden des Testmodus (Testfallstufe)

Verwenden Sie den Testmodus (Testfallebene), wenn:

Ihre Rubrik ist stabil und gut ausgerichtet.
Sie führen eine routinemäßige Qualitätssicherung durch.
Sie benötigen eine kostengünstige automatisierte Abstufung.
Pass- oder Fail-Ergebnisse sind Ihr primäres Ziel.

Verwenden Sie den Einschränkungsmodus (Testlaufebene), wenn:

Sie erstellen eine neue Rubrik.
Sie verbessern eine vorhandene Rubrik.
Sie müssen KI und menschliches Urteil vergleichen.
Sie möchten die KI-Begründung verstehen.
Die Ausrichtungsanalyse ist Ihr primäres Ziel.

Bewährte Methoden

Verwenden Sie die folgenden bewährten Methoden, um Rubriken sowohl im Test- als auch im Einschränkungsmodus effektiv zu verwenden:

Beginnen Sie mit dem Einschränkungsmodus: Verfeinern Sie immer eine Rubrik, indem Sie die Zuweisung auf Testlaufebene verwenden, bevor Sie sie auf Testfallebene für regelmäßige Tests bereitstellen.
Verwenden Sie repräsentative Testfälle: Wählen Sie zur Verfeinerung Testfälle aus, die die Vielfalt von Antworten darstellen, die in der Produktion auftreten können.
Setzen Sie realistische Passnoten fest: Legen Sie nicht standardmäßig die Noten als 5 fest, es sei denn, Sie benötigen für jede Antwort eine vorbildliche Qualität. Bedenken Sie Folgendes:
- Stufe 5: Reserve für kritische Kommunikation (IR-Berichte, Managementzusammenfassungen).
- Klasse 4: Geeignet für die meisten Unternehmenskommunikationen.
- Klasse 3: Mindestfunktionsqualität für interne Werkzeuge.
Überwachen der Ausrichtung im Laufe der Zeit: Sogar verfeinerte Rubriken können sich verdriften. Geben Sie den Verfeinerungsmodus regelmäßig erneut ein, um die Ausrichtung mit den aktuellen Erwartungen zu überprüfen.
Dokumentzweck der Rubrik: Fügen Sie Anmerkungen zu Ihrer Rubrikbeschreibung hinzu über:
- Beabsichtigter Anwendungsfall
- Zieldurchgangsnote
- Alle besonderen Überlegungen
Test auf Testlaufebene vor dem Commit: Führen Sie vor dem Zuweisen einer neuen Rubrik zu vielen Testfällen zuerst eine Testausführung aus, um zu überprüfen, ob sie wie erwartet funktioniert.

Weitere Informationen finden Sie in den bewährten Methoden und Tipps zur Verfeinerung von Rubriken.

Ausführen von Tests im Copilot Studio Kit

Nächster Schritt

Rubrik-Verbesserungs-Workflow

Feedback

War diese Seite hilfreich?

Last updated on 2026-03-11