Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Sie können Rubriken in zwei verschiedenen Modi innerhalb der Testautomatisierung von Copilot Studio Kit verwenden. Das Verständnis des Unterschieds zwischen diesen Modi ist für die effektive Verwendung des Features "Rubrikenverfeinerung" unerlässlich.
Modi der Rubrikennutzung
Die Rubrikennutzung im Copilot Studio Kit arbeitet in zwei Modi:
| Aspekt | Testmodus (Testfallstufe) | Einschränkungsmodus (Testlaufstufe) |
|---|---|---|
| Purpose | Regelmäßige Testautomatisierung mit benutzerdefinierter Benotung | Iterative Rubrik Überarbeitung |
| Zuordnungsebene | Einzeltestfall | Gesamter Testlauf |
| Anwendungsfall | Fortlaufende Qualitätssicherung | Beim Verfeinern der Rubrikenqualität |
| KI-Begründung | Bewertung allein (kostengünstig) | Bewertung: detaillierte Begründung (teurer) |
| Bestehensnote | Bestimmt das Übergeben oder Fehlschlagen | Nur Informationsindikator |
| Ziel | Identifizieren von Antworten mit niedriger Qualität | Minimierung der Fehlausrichtung zwischen KI und Mensch |
Testmodus: Rubriken auf Testfallebene
Der Testmodus wurde für die regelmäßige Verwendung einer optimierten Rubrik entwickelt, um die Benotung von Generative Answer-Testfällen zu automatisieren.
Verwenden des Testmodus
Verwenden Sie die Rubriken auf Testfallebene im Copilot Studio Kit, wenn Sie:
- Haben Sie eine verfeinerte, vertrauenswürdige benutzerdefinierte Rubrik bereit für die regelmäßige Verwendung.
- Möchten Sie Qualitätsprüfungen für generative Antwortantworten in vorhandenen Testsätzen automatisieren.
- Benötigen Sie benutzerdefinierte Auswertungskriterien, die über die Standardüberprüfung im Copilot Studio Kit hinausgehen.
Zuweisen einer Rubrik auf Testfallebene
So weisen Sie eine Rubrik auf Testfallebene zu:
- Öffnen oder erstellen Sie einen Testfall mit Testtyp , der als generative Antworten festgelegt ist.
- Wählen Sie in der Dropdownliste "Rubrik " eine Rubrik aus. Wenn Sie eine Rubrik auswählen, wird das Feld " Antwort-/Validierungsanweisungen erwartet " ausgeblendet, da die Rubrik standardmäßige Gültigkeitsprüfungslogik ersetzt.
- Legen Sie die Bestehensgrenze fest.
- Wählen Sie Speichern aus.
Funktionsweise einer Rubrik auf Testfallebene
Wenn Sie eine Rubrik auf Testfallebene zuweisen, gehen Sie wie folgt vor:
- Ersetzt die Standardüberprüfung: Der rubrikbasierte KI-Grader ersetzt die standardmäßige Validierungslogik für generative Antworten.
- Wertet die Antwort aus: Der KI-Richter bewertet die Antwort des Agenten anhand der Rubrikenkriterien.
- Weist eine Noten zu: Eine Bewertung von 1 bis 5 wird basierend auf der Rubrik generiert.
-
Bestimmt das Bestehen oder Durchfallen:
- Pass: Note ist größer oder gleich der Bestehensnote.
- Nicht bestanden: Der Notenwert ist kleiner als der Schwellenwert für die Bestehensgrenze.
- Kein detaillierter Grund: Um die Kosten niedrig zu halten, wird nur die Noten bereitgestellt, nicht die Begründung.
Legen Sie die Mindestbestehensnote fest
Die Passnote legt die mindest akzeptable Qualitätsstufe fest:
| Noten bestanden | Beschreibung | Anwendungsfall |
|---|---|---|
| 5 (Standard) | Nur beispielhafte Antworten bestehen | Sie benötigen höchste Qualitätsstandards |
| 4 | Starke oder bessere Antworten übergeben | Sie akzeptieren qualitativ hochwertige Antworten mit Möglichkeit für geringfügige Verbesserungen. |
| 3 | Akzeptable oder bessere Antworten übergeben | Sie benötigen Antworten, die den Mindestfunktionsanforderungen entsprechen |
| 2 | Schwache oder bessere Antworten werden akzeptiert | Sie setzen einen sehr niedrigen Maßstab (selten empfohlen) |
| 1 | Alle Antworten bestehen die Prüfung, mit Ausnahme der schlechtesten. | Fast nie geeignet für die Qualitätssicherung |
Verwenden Sie für die meisten Anwendungsfälle zur Qualitätssicherung die Bewertungsstufe 5 oder 4, um hohe Standards aufrechtzuerhalten.
Zweck des Testmodus
Der Testmodus hilft Ihnen bei:
- Identifizieren Sie antworten mit niedriger Qualität , die Aufmerksamkeit benötigen.
- Automatisieren Sie Regressionstests mit konsistenten Bewertungskriterien.
- Skalierung der Qualitätssicherung in vielen Testfällen.
- Wenden Sie domänenspezifische Standards an , die keine generische Überprüfung erfassen können.
Verfeinerungsmodus: Rubriken auf Testdurchführungsebene
Der Einschränkungsmodus unterstützt den iterativen Prozess der Erstellung und Verbesserung einer Rubrik durch Vergleich der KI-Benotung mit der menschlichen Benotung.
Verwenden des Verfeinerungsmodus
Verwenden Sie die Rubriken für Testlaufebenen im Copilot Studio Kit, wenn Sie:
- Erstellen oder Verfeinern einer Rubrik.
- Wir müssen die KI-Abstimmung mit dem menschlichen Urteil in Einklang bringen.
- Sie möchten KI- und menschliche Bewertungen vergleichen.
- Iterieren Sie, um die Rubrikenqualität zu verbessern.
Zuweisen einer Rubrik auf Testlaufebene
So weisen Sie eine Rubrik auf Testlaufebene zu:
- Öffnen oder Erstellen einer Testausführung.
- Wählen Sie in der Dropdownliste "Rubrik " eine Rubrik aus.
- Legen Sie die Bestehensnote fest. Der Standardwert ist 5 - (Exemplarisch). Dieser Wert ist nur im Verfeinerungsmodus informativ, da das Ziel die Ausrichtung ist und nicht das Erreichen von Punktzahlen.
- Wählen Sie "Speichern" aus, und führen Sie die Testausführung aus.
Funktionsweise einer Rubrik auf Testlaufebene
Wenn Sie auf Testlaufebene eine Rubrik zuweisen, hat dies folgende Auswirkungen:
- Gilt für alle Generative Answer Tests: Die ausgewählte Rubrik setzt alle Rubriken außer Kraft, die auf Testfallebene festgelegt sind.
- Überspringt Nicht-GA-Testtypen: Testfälle, die keine generativen Antworten sind, werden vollständig übersprungen.
-
Führt KI-Bewertungen mit Gründen aus: Der KI-Richter bietet beides:
- Note (1-5): Die Qualitätsbewertung
- Begründung: Ausführliche Begründung zur Erläuterung der Noten
- aktiviert Verfeinerungsworkflow: Ergebnisse umfassen Felder für die menschliche Bewertung und Ausrichtungsindikatoren.
- Ist teurer: Die Generierung detaillierter Rationale erhöht die KI-Verarbeitungskosten.
Verständnis der Bestehensnote
Im Verfeinerungsmodus ist die Übergabenote nur informativ, nicht das Ziel.
- Zweck: Die Bestehensgrenze hilft Ihnen dabei, herauszufinden, welche Antworten unter Ihrem Zielwert liegen.
- Nicht das Ziel: Das Ziel der Verfeinerung besteht darin, die Fehlausrichtung zwischen KI und menschlichen Noten zu minimieren, nicht um alle Antworten zu übergeben.
- Beispiel: Wenn Sie die Bestehensnote auf 5 festlegen und die KI eine Note von 3 vergibt, zeigt Ihnen diese Note, dass diese Antwort Ihrem Standard nicht entspricht. Aber was wichtig ist, ist, ob der Mensch es auch als 3 (Ausrichtung) oder anders benotet (Fehlausrichtung).
Unterschied zwischen Test- und Verfeinerungsmodi
| Rubrik auf Testfallebene ausgewählt | Rubrik auf Testlaufebene ausgewählt | Keine Rubrik ausgewählt |
|---|---|---|
|
|
|
Verhaltensnotizen
Im Folgenden finden Sie einige wichtige Verhaltenshinweise, die Sie verstehen sollten, wenn Sie Rubriken in verschiedenen Modi verwenden:
Rubrikhierarchie und Außerkraftsetzungen
- Rubrikenüberschreibungen auf der Ebene des Testlaufs überschreiben die Rubriken auf der Ebene des Testfalls: Wenn Sie eine Rubrik auf der Ebene des Testlaufs auswählen, gilt sie für alle Generative-Antwort-Testfälle, während alle anderen Rubriken ignoriert werden, die einzelnen Testfällen zugewiesen sind.
- Rubriken auf Testfallebene sind unabhängig: Wenn Sie keine Rubrik auf Testlaufebene auswählen, verwendet jeder Testfall eine eigene Rubrik (sofern zugewiesen) oder eine Standardüberprüfung (falls nicht).
Nicht-generative Antworttesttypen
Wenn Sie auf Testlaufebene eine Rubrik auswählen:
- Nicht-GA-Testtypen werden übersprungen: Rubriken gelten nur für Generative Answer-Testfälle.
- Rationale: Rubriken sind für die Auswertung von generativen Antworten konzipiert, nicht für andere Testtypen wie Aktion, Thema oder Unterhaltungsfluss.
Wenn Rubrik auf Testfallebene ausgewählt ist:
- Nicht-GA-Testtypen werden normal ausgeführt: Nur ein bestimmter Generative Answer-Testfall verwendet die Rubrik.
Validierungsanweisungen und Rubriken
- Gegenseitig ausschließend: Sie können keine rubrikbasierten Benotungs- und Validierungsanweisungen zusammen verwenden.
- Wenn Sie eine Rubrik auswählen: Das Feld "Validierungsanweisungen " ist ausgeblendet (Testfallebene) oder ignoriert (Testlaufstufe).
- Begründung: Der Kriterienkatalog ersetzt die Gültigkeitsprüfungslogik vollständig.
Kostenaspekte
| Modus | KI-Benotungstyp | Cost | Wann verwenden |
|---|---|---|---|
| Testmodus (Testfall) | Nur Bewertung | Niedriger |
|
| Verfeinerungsmodus (Testausführung) | Note + Begründung | Höher |
|
Workflow: Vom Verfeinern bis zum Testen
Der typische Workflow verläuft von der Verfeinerung zum Testen.
Phase 1: Rubrikverfeinerung (Testlaufebene)
- Erstellen Sie eine erste Rubrik.
- Weisen Sie eine Rubrik auf Testlaufebene zu.
- Ausführen eines Testlaufs mit KI-Benotung plus Rationale.
- Stellen Sie menschliche Bewertungen zur Verfügung.
- Ausrichtung vergleichen.
- Verfeinern Sie Kriterien basierend auf einer Diskrepanz.
- Wiederholen Sie den Vorgang, bis die Ausrichtung akzeptabel ist.
Phase 2: Regelmäßige Tests (Testfallstufe)
- Stellen Sie sicher, dass eine Rubrik verfeinert und vertrauenswürdig ist.
- Weisen Sie eine Rubrik auf Testfallebene zu.
- Verwenden Sie eine Rubrik in der laufenden Testautomatisierung.
- KI-Benotung ohne Rationale (kostenwirksam).
- Bestehen oder durchfallen basierend auf der Bestehensnote.
- Kehren Sie zur Verfeinerung zurück, wenn Qualitätsprobleme auftreten.
Auswählen des richtigen Modus
Wählen Sie den Testmodus (Testfallebene) und den Einschränkungsmodus (Testlaufstufe) basierend auf Ihren aktuellen Zielen und dem Ort, an dem Sie sich im Lebenszyklus der Rubrikenentwicklung befinden.
Verwenden des Testmodus (Testfallstufe)
Verwenden Sie den Testmodus (Testfallebene), wenn:
- Ihre Rubrik ist stabil und gut ausgerichtet.
- Sie führen eine routinemäßige Qualitätssicherung durch.
- Sie benötigen eine kostengünstige automatisierte Abstufung.
- Pass- oder Fail-Ergebnisse sind Ihr primäres Ziel.
Verfeinerungsmodus verwenden (Testlauf-Ebene)
Verwenden Sie den Einschränkungsmodus (Testlaufebene), wenn:
- Sie erstellen eine neue Rubrik.
- Sie verbessern eine vorhandene Rubrik.
- Sie müssen KI und menschliches Urteil vergleichen.
- Sie möchten die KI-Begründung verstehen.
- Die Ausrichtungsanalyse ist Ihr primäres Ziel.
Bewährte Methoden
Verwenden Sie die folgenden bewährten Methoden, um Rubriken sowohl im Test- als auch im Einschränkungsmodus effektiv zu verwenden:
- Beginnen Sie mit dem Einschränkungsmodus: Verfeinern Sie immer eine Rubrik, indem Sie die Zuweisung auf Testlaufebene verwenden, bevor Sie sie auf Testfallebene für regelmäßige Tests bereitstellen.
- Verwenden Sie repräsentative Testfälle: Wählen Sie zur Verfeinerung Testfälle aus, die die Vielfalt von Antworten darstellen, die in der Produktion auftreten können.
-
Setzen Sie realistische Passnoten fest: Legen Sie nicht standardmäßig die Noten als 5 fest, es sei denn, Sie benötigen für jede Antwort eine vorbildliche Qualität. Bedenken Sie Folgendes:
- Stufe 5: Reserve für kritische Kommunikation (IR-Berichte, Managementzusammenfassungen).
- Klasse 4: Geeignet für die meisten Unternehmenskommunikationen.
- Klasse 3: Mindestfunktionsqualität für interne Werkzeuge.
- Überwachen der Ausrichtung im Laufe der Zeit: Sogar verfeinerte Rubriken können sich verdriften. Geben Sie den Verfeinerungsmodus regelmäßig erneut ein, um die Ausrichtung mit den aktuellen Erwartungen zu überprüfen.
-
Dokumentzweck der Rubrik: Fügen Sie Anmerkungen zu Ihrer Rubrikbeschreibung hinzu über:
- Beabsichtigter Anwendungsfall
- Zieldurchgangsnote
- Alle besonderen Überlegungen
- Test auf Testlaufebene vor dem Commit: Führen Sie vor dem Zuweisen einer neuen Rubrik zu vielen Testfällen zuerst eine Testausführung aus, um zu überprüfen, ob sie wie erwartet funktioniert.
Weitere Informationen finden Sie in den bewährten Methoden und Tipps zur Verfeinerung von Rubriken.