Rubriküberarbeitungsworkflow - Microsoft Copilot Studio

Rubrikverfeinerung ist ein iterativer Zyklus, der dazu beiträgt, KI-Bewertungen mit menschlichem Urteil auszurichten. Jede Iteration folgt einem systematischen Prozess:

Ausführen → Überprüfen → Benoten → Verfeinern → Speichern → Erneut ausführen → Wiederholen

Sie benötigen in der Regel mehrere Iterationen, bevor Sie eine akzeptable Ausrichtung erreichen. Diese Notwendigkeit für mehrere Iterationen wird erwartet und normal. Rubrikenverfeinerung ist ein Prozess der fortschreitenden Verbesserung, nicht eine einmalige Einrichtung.

Workflowschritte

Führen Sie die folgenden Schritte im Rubrikverfeinerungs-Workflow aus.

Der erste Schritt besteht darin, einen Testlauf im Rubrikeneinschränkungsmodus zu konfigurieren und auszuführen, wodurch KI-Benotung mit der von Ihnen definierten Rubrik ermöglicht wird. Während dieser Ausführung generiert das System KI-Noten und Rationale für jeden Generative Answer-Testfall, berechnet aber nicht den Pass- oder Fail-Status, da Sie die Rubrik noch verfeinern.

Voraussetzungen

Ein Testsatz, der generative Antwort-Testfälle enthält.
Eine Rubrik (anfängliche oder vorherige Iteration), die optimiert werden soll.

Konfiguration

So konfigurieren Sie eine Testausführung für die Rubrikenverfeinerung:

Erstellen oder Duplizieren einer Testausführung:
1. Gehen Sie zu Ihrem Testset.
2. Wählen Sie "Neu" oder "Duplizieren" aus, wenn Sie aus einer vorherigen Iteration verfeinern.
Konfigurieren Sie die Testausführung:
- Name: Geben Sie einen beschreibenden Namen an (z. B. "Automotive Repair Rubric - Iteration 2").
- Agent-Testsatz: Wählen Sie Ihren Testsatz mit generativen Antworttestfällen aus.
- Agentkonfiguration: Wählen Sie die zu testde Agentkonfiguration aus.
- Rubrik: Wählen Sie die Rubrik aus, die Sie verfeinern möchten.
- Bestehensnote: Legen Sie die Bestehensnote fest (Standard ist 5).
  
  Im Verfeinerungsmodus ist die Übergabenote nur informativ. Sie hilft dabei, Antworten unterhalb ihres Zielschwellenwerts zu identifizieren.
Führen Sie die Testausführung aus:
- Wählen Sie "Speichern" und "Schließen" aus, und führen Sie dann die Ausführung aus.
Das System führt jeden Testfall für generative Antwort aus. Es führt KI-Bewertungen mit detaillierter Begründung durch.

Was geschieht während der Ausführung?

Für jeden Testfall für generative Antwort:
- Der Agent reagiert auf die Testantwort.
- Der KI-Richter wertet die Antwort mithilfe der Rubrik aus.
- Der KI-Richter bewertet mit einer Note von 1 bis 5.
- Der KI-Richter erzeugt eine detaillierte Begründung zur Erläuterung der Noten.
Das System überspringt nicht-generative Antwort-Testfälle.
- Das System wertet nur Generative Antwort-Testtypen im Verfeinerungsmodus aus.

Verwenden Sie spezielle Rubrikverfeinerungsansichten, um die Ausrichtung zu bewerten, nachdem der Testlauf abgeschlossen ist. Die Schnittstelle bietet zwei Hauptansichten zur Unterstützung einer unvoreingenommenen menschlichen Bewertung.

Forschung zeigt, dass die Anzeige von KI-Noten menschliches Urteil beeinträchtigen kann. Um diese Verzerrung zu vermeiden, stellt die Schnittstelle die folgenden beiden Ansichten bereit:

Standardüberprüfungsansicht: Blendet KI-Bewertungen für unvoreingenommene menschliche Bewertungen aus.
Vollständige Verfeinerungsansicht: Zeigt KI-Noten für den Ausrichtungsvergleich an.

Wechseln Sie je nach Aufgabe zwischen diesen Ansichten.

Der folgende Screenshot zeigt die Standardansicht der Verfeinerung. Es blendet KI-Noten und Rationale aus, damit Sie unvoreingenommene menschliche Benotung bereitstellen können:

Zweck: Bietet unvoreingenommene menschliche Auswertung ohne KI-Einfluss.
Verwendungsbedingungen:
- Beim ersten Überprüfen von Antworten und der Vergabe von Noten durch Menschen.
- Wenn Sie gute oder schlechte Beispiele festlegen.
- Wenn Sie Verzerrungen von KI-Bewertungen vermeiden möchten.
Was ist sichtbar:
- Testen Sie die Äußerung (was der Benutzer gefragt hat).
- Agent-Antwort (was der Copilot beantwortet hat).
- Manuelle Benotungsfelder (anfänglich leer):
  - Human Grade Auswahl (1-5).
  - Textfeld für menschliches Denken .
  - Als Beispiel-Umschalter markiert .
  - Beispieltyp-Auswahl (Gutes Beispiel oder schlechtes Beispiel).
Was ist verborgen:
- KI-Einstufung
- KI-Rationale
Navigation:
- In der Listenansicht werden alle Testfälle in einer Tabelle angezeigt.
- Wählen Sie eine beliebige Zeile aus, um eine detaillierte Ansicht für längere Antworten zu öffnen.

Der folgende Screenshot zeigt die vollständige Verfeinerungsansicht. Es umfasst KI-Noten und Rationale, damit Sie menschliche und KI-Bewertungen vergleichen können:

Zweck: Vergleichen Sie KI und menschliche Bewertungen, um die Ausrichtung zu verstehen.
Verwendungsbedingungen:
- Nach der Bereitstellung menschlicher Noten, um diese mit KI zu vergleichen.
- Um zu verstehen, warum eine Fehlausrichtung aufgetreten ist.
- Um Muster im KI-Denken zu identifizieren.
  - Bei der Analyse, welche Antworten Beispiele benötigen.
Was ist sichtbar: Alles aus standardansicht, plus:
- KI-Klasse (1-5)
- KI-Rationale (detaillierte Begründung)
- Ausrichtungsindikator: Visueller Indikator, der anzeigt, ob menschliche und KI-Noten übereinstimmen.
  - Ausgerichtet: KI-Bewertung = Menschliche Bewertung
  - Falsch ausgerichtet: KI-Note ≠ Menschliche Note
Wichtige Einblicke: Die vollständige Ansicht hilft Ihnen, Fehlausrichtungsmuster zu verstehen.
- Ist die KI konsequent zu lenient oder zu streng?
- Welche Kriterien unterstreicht oder verpasst die KI?
- Welche Arten von Antworten verwechseln die KI?

Schritt 3: Menschliches Bewertungsverfahren

Die präzise und durchdachte menschliche Bewertung ist für eine effektive Überarbeitung der Bewertungsraster von entscheidender Bedeutung.

Option A: Listenansichtsbewertung

Verwenden Sie die Listenansicht (Standard oder Vollständig) für schnelle Benotung:

Überprüfen Sie jeden Testfall in der Tabelle.
Lesen Sie die Testäußerung und die Agentantwort.
Weisen Sie eine Benotung (1-5) basierend auf den Rubrikenkriterien zu.
Geben Sie eine Begründung ein, in der Ihre Noten erläutert werden.
Wechseln zum nächsten Testfall.

Vorteile:

Schnell für kurze Antworten.
Gute Übersicht über alle Fälle.
Effizient für große Testsätze.

Nachteile:

Begrenzter Platz zum Anzeigen längerer Antworten.
Weniger detaillierter Kontext.

Option B: Detaillierte Benotung der Ansicht

Verwenden Sie die detaillierte Ansicht für längere, komplexe Antworten:

Wählen Sie einen beliebigen Testfall in der Listenansicht aus, um eine detaillierte Ansicht zu öffnen.
Überprüfen Sie den vollständigen Unterhaltungskontext:
- Die Testäußerung wird deutlich angezeigt.
- Vollständige Agentantwort mit vollständiger Formatierung.
Navigieren zwischen Testfällen:
- Öffnen Sie die Datensatzbrowseransicht auf der linken Seite, und wählen Sie verschiedene Testfälle aus.
- Wechseln zwischen den Tabs Verfeinerung und Rubrikverfeinerung (Vollständig).
Wählen Sie die Benotung (1-5) aus der Liste " Human Grade " aus.
Stellen Sie menschliches Denken bereit:
- Erläutern, warum Sie diese Note zugewiesen haben.
- Verweisen Sie auf bestimmte Rubrikenkriterien.
- Beachten Sie alle Stärken oder Schwächen.
- Die Begründung ist für die Verfeinerung obligatorisch.
Aktivieren Sie " Als Beispiel markiert" bei Bedarf auf "Ja". Weitere Informationen finden Sie in Schritt 4: Markieren von Beispielen.

Vorteile:

Vollständiger Kontext für komplexe Antworten.
Besser für sorgfältige, durchdachte Bewertung.
Einfacheres Verweisen auf Rubriken während der Benotung.

Komponenten der detaillierten Ansicht

Die detaillierte Ansicht enthält zwei Registerkarten:

Verfeinerungsregisterkarte (KI ausgeblendet):
- Testen der Äußerung
- Agent-Antwort
- Auswahl des menschlichen Grades (erforderlich)
- Textfeld "Human Reasoning" (erforderlich)
- Als Beispiel-Umschalter markiert
- Beispiel-Typauswahl
Rubrikverfeinerung (Vollständig) (AI Visible):
- Zusätzlich zu den oben genannten Punkten:
- KI-Klasse
- KI-Begründung
- Ausrichtungsindikator

Bewährte Methoden für die menschliche Benotung

Ohne zuerst die KI-Bewertung zu sehen, Noten vergeben:
- Verwenden Sie die Ansicht "Standardverfeinerung" oder die Registerkarte "Verfeinern".
- Bilden Sie Ihre eigene Meinung, bevor Sie mit KI vergleichen.
Seien Sie mit Rubrikenkriterien konsistent:
- Verweisen Sie auf die Rubrikendefinitionen.
- Wenden Sie die gleichen Standards für alle Testfälle an.
- Benoten Sie nicht nach einer Kurve – verwenden Sie absolute Maßstäbe.

Detailliertes Schreiben von Gründen:

Erläutern, welche Rubrikenkriterien erfüllt oder verpasst wurden.
Seien Sie spezifisch für Stärken und Schwächen.
Ihre Begründung hilft KI zu verstehen, auf was sie sich konzentrieren sollten.

Beispiel für gute Begründung:

Grade 4 (Strong): Response includes accurate technical information about the
issue and provides clear next steps. Tone is professional and reassuring.
However, it lacks specific timeline estimates that would make it exemplary
(Grade 5). All major IR elements present but could be more investor-ready.

Beispiel für schlechtes Denken:

Grade 4: Pretty good.

Lassen Sie sich nicht durch Pass oder Fail beeinflussen:
- Das Ziel ist die Ausrichtung, nicht das Erreichen von Punktzahlen.
- Benoten Sie ehrlich auf der Grundlage von Qualität, nicht auf den gewünschten Ergebnissen.
Benoten Sie alle Testfälle gleichmäßig:
- Abschließen der Benotung für den gesamten Testsatz.
- Die inkonsistente Benotung reduziert die Effektivität der Verfeinerung.

Weitere Informationen finden Sie in den bewährten Methoden und Tipps zur Verfeinerung von Rubriken.

Schritt 4: Markieren von Beispielen

Beispiele verbessern die Rubrikenqualität erheblich, indem konkrete Illustrationen von guten und schlechten Antworten bereitgestellt werden.

Zweck von Beispielen

Beispiele helfen der KI zu verstehen:

Wie gut tatsächlich in der Praxis aussieht.
Was schlechte Antworten enthalten , macht sie inakzeptabel.
Edgefälle, in denen Kriterien möglicherweise unklar sind.
Kontext und Nuance , den Textbeschreibungen nicht vollständig erfassen können.

Markieren von Beispielen

In der Listenansicht oder in der detaillierten Ansicht:

"Als Beispiel markiert" auf "Ja" ändern.
Beispieltyp auswählen:
- Gutes Beispiel: Veranschaulicht eine qualitativ hochwertige Antwort.
- Schlechtes Beispiel: Veranschaulicht eine Antwort von schlechter Qualität.
Das System erfasst:
- Testen der Äußerung
- Agent-Antwort
- Ihre Beispielbezeichnung (gut oder schlecht)

Wann man Beispiele markieren sollte

Erwägen Sie, einen Testfall als Beispiel zu markieren, wenn:

Gutes Beispiel:
- Antwort ist Klasse 5 (Exemplarisch) und zeigt eine ideale Qualität.
- Antwort ist Klasse 4 und zeigt alle wichtigen Kriterien an, auch wenn sie nicht perfekt sind.
- Die Antwort behandelt ein komplexes Szenario besonders gut.
- Sie möchten bestimmte positive Verhaltensweisen verstärken.
Schlechtes Beispiel:
- Die Antwort ist Klasse 1 (verbesserungswürdig) und erfüllt die Erwartungen deutlich nicht.
- Antwort ist Stufe 2 und zeigt häufige Fehler, die vermieden werden sollten.
- Die Antwort veranschaulicht einen bestimmten Stolperstein oder Fehlermodus.
- Sie möchten klären, wie "nicht akzeptabel" aussieht.
Entweder:
- Der Testfall stellt einen Randfall oder ein mehrdeutiges Szenario dar.
- Es gibt Unstimmigkeiten zwischen KI- und menschlichen Bewertungen (was dazu beiträgt, Ihre Bewertungsstandards zu verdeutlichen).
- Der Testfall ist besonders repräsentativ für gemeinsame Muster.

Wie viele Beispiele sollten Sie markieren?

Qualität über Quantität: Einige gut gewählte Beispiele sind besser als viele mittelmäßig.
Balance gut und schlecht: Berücksichtigen Sie beide Aspekte, um klare Grenzen festzulegen.
Vielfalt darstellen: Behandeln Sie verschiedene Arten von Abfragen und Antworten.

Tipp

Konzentrieren Sie sich auf Testfälle, in denen eine Fehlausrichtung besteht. In diesen Beispielen wird häufig klargestellt, wo die Rubrik mehrdeutig ist.

Schritt 5: Grundlegendes zur Ausrichtung

Die Übereinstimmung zeigt an, ob die Bewertungen der KI und des Menschen übereinstimmen.

Individuelle Testfallausrichtung

Für jeden Testfall:

Ausgerichtet: KI-Bewertung = Menschliche Bewertung
Falsch ausgerichtet: KI-Note ≠ Menschliche Note

Ausrichtungsberechnung für einzelne Testfälle

Berechnen Sie für jeden Testfall die Ausrichtung zwischen KI-generierten Antworten und menschlichen Erwartungen mithilfe der linearen Interpolation von 100% (perfekte Übereinstimmung) auf 0% (maximal unterschiedlich).

Interpretation:

Wenn KI-Bewertung = Menschliche Bewertung, Übereinstimmung = 100%.
Da der Gradunterschied zunimmt, nimmt die Ausrichtung linear ab.
Der maximale Unterschied auf einer Skala von 1 bis 5 beträgt 4 Stufen, die 0 % zugeordnet sind.

Formel:

alignment = 100 % * (1 - (KI - Mensch) / 4)

Resultierende Ausrichtungsmatrix:

KI ↓ / Mensch →	1	2	3	4	5
1	100 %	75%	50 %	25 %	0 %
2	75%	100 %	75%	50 %	25 %
3	50 %	75%	100 %	75%	50 %
4	25 %	50 %	75%	100 %	75%
5	0 %	25 %	50 %	75%	100 %

Eigenschaften:

Symmetrisch: Die Ausrichtung ist gleich, unabhängig davon, welcher Wert KI ist und welcher Mensch ist.
Diagonal = 100%: Perfekte Ausrichtung, wenn KI- und menschliche Bewertungen übereinstimmen.
Äußerste Ränder = 0%: Größtmögliche Fehlausrichtung, wenn Noten an gegenüberliegenden Enden der Skala liegen.
Glatte, lineare Interpolation: Die Ausrichtung nimmt gleichmäßig ab, wenn die Differenz zunimmt.

Was ist eine gute Ausrichtung?

Es gibt keinen absoluten Standard, aber verwenden Sie diese allgemeinen Richtlinien für den durchschnittlichen Ausrichtungsprozentsatz des gesamten Rubrikverfeinerungslaufs.

Ausrichtungsgrad %	Assessment	Action
90-100%	Ausgezeichnet	Die Struktur ist äußerst zuverlässig; Erwägen, in den Testmodus zu wechseln.
75-89%	Gut	Rubrik ist größtenteils abgestimmt; Sonderfälle verfeinern.
60-74%	Durchschnittlich	Rubriken müssen verbessert werden; konzentrieren Sie sich auf Ausrichtungsfehler.
< 60%	Schlecht	Rubrik erfordert erhebliche Verfeinerung oder Neugestaltung.

Fehlausrichtung analysieren

Bei Fehlausrichtung überprüfen Sie Folgendes:

Richtung der Fehlausrichtung:
- Bewertet die KI konsequent besser oder schlechter als Menschen?
- Dieses Muster weist auf systematische Verzerrungen in der Rubrik hin.
Muster bei fehlausgerichteten Fällen:
- Verursachen bestimmte Arten von Antworten eine Fehlausrichtung?
- Werden bestimmte Kriterien falsch interpretiert?
Größe der Fehlausrichtung:
- Um 1 Punkt abweichend (z. B. AI=4, Human=5) → Kleinere Korrektur erforderlich.
- Um 2+ Punkte (z. B. AI=2, Mensch=5) → Erhebliche Klarstellung erforderlich.
AI-Begründungen lesen (Vollansicht):
- Auf welche Kriterien hat sich die KI konzentriert?
- Was hat die KI verpasst, dass der Mensch bemerkt hat?
- Ist die KI die Sprache der Bewertungsrichtlinien falsch interpretiert?

Schritt 6: Verfeinern und Speichern von Rubriken

Nachdem Sie menschliche Bewertungen durchgeführt, Beispiele markiert und die Ausrichtung analysiert haben, sind Sie bereit, die Bewertungsskala zu verfeinern.

Wenn Sie "Rubrik verfeinern" auswählen, analysiert KI Folgendes:

Aktueller Rubrikinhalt:
- Beschreibung "Wie gute Antwort aussieht"
- Notendefinitionen (1-5)
- Vorhandene Beispiele
Menschliche Bewertungen und Argumentation:
- Wie Sie jede Antwort bewertet haben
- Ihre Erklärungen für Noten
KI-Bewertungen und Begründungen:
- Wie die KI die Rubrik interpretiert hat
- Wo das KI-Denken von menschlichem Denken abweicht
Markierte Beispiele:
- Testen von Äußerungs- und Antwortpaaren
- Gute oder schlechte Bezeichnungen
- Kontext zu dem, was sie beispielhaft oder schlecht macht
Ausrichtungsmuster:
- Welche Kriterien eine konsistente Fehlausrichtung verursachen
- Wo die Rubrik mehrdeutig ist
- Was muss klargestellt werden?

Die KI aktualisiert dann die Rubrik, um die Ausrichtung zu verbessern, indem:

Klarstellen von mehrdeutigen Sprachen
Genauere Definition von Bewertungskriterien
Integrieren von Beispielen
Anpassung der Betonung auf die Kriterien
Entfernen von Widersprüchen oder Verwirrung

Verfeinern einer Rubrik

So verfeinern Sie eine Rubrik:

Wählen Sie in der Rubrik-Überarbeitungsansicht die Option "Rubrik verfeinern" aus.
Das System verarbeitet alle Benotungsdaten und generiert eine Verfeinerung.
Überprüfen Sie die verfeinerte Rubrik. Das System zeigt möglicherweise eine Vorschau an.
Wählen Sie eine Speicheroption aus:
- Speichern (Überschreiben): Verwenden Sie diese Option, wenn Sie die gleiche Rubrik durchlaufen und den Verlauf nicht beibehalten müssen.
  - Ersetzt die vorhandene Rubrik durch die verfeinerte Version.
  - Die ursprüngliche Version geht verloren (kein Versionsverlauf in MVP).
- Speichern unter (Neu erstellen): Verwenden Sie diese Option, wenn Sie Versionen vergleichen oder einen Basisplan beibehalten möchten.
  - Erstellt eine neue Rubrik mit einem anderen Namen.
  - Behält die ursprüngliche Rubrik bei.
Empfehlung: Verwenden Sie für frühe Iterationen " Speichern unter " zum Beibehalten des Verlaufs (z. B. "IR-Bericht v1", "IR-Bericht v2"). Nachdem sich die Rubrik stabilisiert hat, verwenden Sie Speichern zum Iterieren.

Schritt 7: Erneutes Ausführen von Tests

Testen Sie nach dem Speichern der optimierten Rubrik, ob die Ausrichtung verbessert wurde:

Duplizieren Sie die Testausführung:
- Wechseln Sie zur abgeschlossenen Testausführung.
- Wählen Sie "Doppelt ausführen" aus.
Wird mit der aktualisierten Rubrik ausgeführt:
- Die duplizierte Ausführung verwendet das verfeinerte Bewertungsschema.
- Führen Sie das Programm mit demselben Testsatz aus.
Vergleich der Ausrichtungsmetriken:
- Hat sich der Prozentsatz der Ausrichtung erhöht?
- Sind bisher falsch ausgerichtete Elemente jetzt richtig ausgerichtet?
Überprüfen Sie die Ergebnisse:
- Verwenden Sie die vollständige Verfeinerungsansicht, um die Ausrichtung zu überprüfen.
- Beachten Sie alle verbleibenden Fehlausrichtungen.

Schritt 8: Iteration

Die Verfeinerung einer Rubrik ist selten nach einem Zyklus abgeschlossen. Wiederholen Sie den Vorgang.

Erneut ausführen → Überprüfen → Bewerten → Verfeinern → Speichern → Wiederholen.
Nachverfolgen des Fortschritts:
- Überwachen Des Ausrichtungsprozentsatzes über Iterationen hinweg.
- Beachten Sie, welche Arten von Fehlausrichtungen weniger werden.
Strategie anpassen:
- Wenn die Ausrichtung nicht verbessert wird, sollten Sie den Rubrikenansatz überdenken.
- Fügen Sie weitere Beispiele für dauerhafte Fehlausrichtungsmuster hinzu.
- Vereinfachen Sie übermäßig komplexe Kriterien.
Wissen Sie, wann Sie aufhören müssen:
- Wenn die Ausrichtung eine akzeptable Ebene erreicht (in der Regel 75-90% oder höher).
- Wenn zusätzliche Iterationen abnehmende Rückgaben zeigen.
- Wenn die Rubrik zuverlässig Qualitätsprobleme identifiziert.

Workflowzusammenfassung

Schritt	Action	Output
1. Startlauf	Konfigurieren Sie die Testausführung mit Rubriken auf Testlaufebene.	KI-Noten und -Rationale generiert
2. Überprüfung	Öffnen Sie die Rubrikverfeinerungsansicht (Standard oder Vollständig).	Kontext für die Benotung
3. Stufe (Mensch)	Stellen Sie Noten (1-5) und Gründe für alle Testfälle bereit.	Aufgezeichnete Menschliche Bewertungen
4. Markieren von Beispielen	Wählen Sie gute oder schlechte Beispiele aus.	Beispiele, die zur Verfeinerung erfasst wurden
5. Grundlegendes zur Ausrichtung	Vergleich von KI und menschlichen Noten; Analysieren von Mustern.	Ausrichtungsprozentsatz und Einblicke
6. Verfeinern und Speichern	Wählen Sie "Rubrik verfeinern" aus. wählen Sie eine Speicheroption aus.	Aktualisierte Rubrik
7. Erneute Ausführung	Doppelte Ausführung und Durchführung mit verfeinertem Kriterienkatalog.	Neue Ausrichtungsdaten
8. Iterate	Wiederholen Sie den Vorgang, bis die Ausrichtung akzeptabel ist.	Zuverlässiger, vertrauenswürdiger Kriterienkatalog

Der Workflow zur Rubrikenverfeinerung kann komplex sein. Hier sind einige Tipps, mit denen Sie effektiv im Prozess navigieren können.

Beginnen Sie mit einer vernünftigen Basisrubrik

Erwarten Sie keine Perfektion von Ihrer anfänglichen Rubrik. Konzentrieren Sie sich auf:

Klare Aussage darüber, "wie gut aussieht"
Grundlegende Benotungsdefinitionen mit feststellbaren Kriterien
Von dort aus verfeinern

Verwenden konsistenter Testfälle

Verwenden Sie denselben Testsatz in mehreren Iterationen, um die Verbesserung der Ausrichtung zu verfolgen. Das Ändern von Testfällen macht es schwierig, den Fortschritt zu messen.

Ehrliche und gründliche Bewertung vornehmen

Ihre menschlichen Bewertungen sind der "Referenzwert" für die Verfeinerung. Zeit investieren in:

Durchdachte Auswertung
Detaillierte Begründung
Einheitliche Anwendung von Standards

Konzentrieren Sie sich auf Muster, nicht auf einzelne Fälle

Ein falsch ausgerichteter Testfall ist keine Krise. Suchen nach:

Systematische Muster bei Fehlausrichtung
Wiederholte Fehler in mehreren Testfällen

Strategische Verwendung von Beispielen

Beispiele haben eine starke Wirkung, aber übertreibe es nicht.

Konzentrieren Sie sich auf falsch ausgerichtete Fälle und Edgefälle
Gute und schlechte Beispiele ausgleichen

Überprüfen von KI-Rationalen

Die Begründung der KI (Vollansicht) zeigt, wie sie Ihre Rubrik interpretiert:

Wenn sich die KI auf die falschen Kriterien konzentriert, klären Sie die Rubrik
Wenn die KI wichtige Punkte verpasst, machen Sie sie prominenter
Wenn die KI ungerade Logik verwendet, fügen Sie Beispiele hinzu, um sie zu leiten.

Mit Bedacht iterieren

Zielspezifische Verbesserungen für jede Iteration:

Iteration 1: Beheben wichtiger Fehlausrichtungsmuster
Iteration 2: Hinzufügen von Beispielen für Edgefälle
Iteration 3: Feinabstimmung der Sprache für bestehende Diskrepanzen

Streben Sie nicht nach 100% Übereinstimmung

Perfekte Ausrichtung ist selten erreichbar oder notwendig. Konzentrieren Sie sich stattdessen auf:

Einige Subjektivität ist in der Bewertung inhärent
Abnehmender Ertrag nach ~85-90% Ausrichtung
Vertrauenswürdige Benotung, nicht Perfektion

Testen mit neuen Daten schließlich

Testen Sie nach mehreren Iterationen das Bewertungsschema an neuen Testfällen, um:

Stellen Sie sicher, dass die Rubrik über Ihren Schulungssatz hinaus generalisiert wird.
Überanpassung an bestimmte Beispiele verhindern

Häufige Probleme beheben

Während der Verfeinerung der Rubriken können eventuell häufige Herausforderungen auftreten. Hier sind einige Probleme, die auftreten können, zusammen mit möglichen Ursachen und Lösungen.

Die Ausrichtung verbessert sich nicht

Mögliche Ursachen

Rubrikenkriterien sind zu subjektiv oder vage
Menschliche Benotung ist inkonsistent
Beispiele veranschaulichen keine eindeutigen Standards

Lösungen:

Vereinfachen der Rubriksprache; konkrete, feststellbare Kriterien verwenden
Testfälle neu bewerten mit konsistenteren Standards
Hinzufügen von mehr Beispielen, insbesondere für Randfälle.

KI ist konsequent zu lenient oder zu streng

Mögliche Ursachen

Notendefinitionen unterscheiden keine eindeutigen Ebenen
"Wie gutes Aussehen aussieht, erzeugt falsche Erwartungen"

Lösungen:

Schärfen von Unterscheidungen zwischen Notenstufen
Hinzufügen von Beispielen mit Grenzfällen
Überarbeiten Sie "wie ein guter Standard aussieht", um den richtigen Maßstab festzulegen.

Mensch und KI konzentrieren sich auf verschiedene Kriterien

Mögliche Ursachen

Rubrik listet zu viele Kriterien ohne Priorisierung auf.
Wichtige Kriterien sind begraben oder unklar

Lösungen:

Kriterien explizit in Benotungsdefinitionen priorisieren
Führen mit den wichtigsten Kriterien
Verwenden von Beispielen zum Veranschaulichen der Priorität

Lange Antworten sind schwer zu benoten

Lösungen:

Verwenden der detaillierten Ansicht für den vollständigen Kontext
Unterteilen Sie die Auswertung in Dimensionen (Genauigkeit, Ton, Vollständigkeit) und bewerten Sie die einzelnen Werte.
Überlegen Sie, ob sich Rubriken auf bestimmte Aspekte und nicht auf die allgemeine Qualität konzentrieren sollen.

Testfälle sind zu ähnlich

Lösungen:

Erweitern des Testsatzes, um Vielfalt einzuschließen
Hinzufügen von Testfällen, die Edgefälle, verschiedene Abfragetypen, komplexe Szenarien abdecken
Verwenden der Testfallgenerierung (P1-Feature) bei Verfügbarkeit

Nächster Schritt

Bewährte Methoden und Tipps zur Verfeinerung von Rubriken

Feedback

War diese Seite hilfreich?

Last updated on 2026-03-11

Freigeben über

Workflow zur Verfeinerung von Rubriken

Workflowschritte

Schritt 1: Einen Durchlauf zur Rubrikverfeinerung starten

Voraussetzungen

Konfiguration

Was geschieht während der Ausführung?

Schritt 2: Überprüfen der Ergebnisse - Rubrikverfeinerungsansichten

Standardverfeinerungsansicht

Vollständige Verfeinerungsansicht

Schritt 3: Menschliches Bewertungsverfahren

Option A: Listenansichtsbewertung

Option B: Detaillierte Benotung der Ansicht

Komponenten der detaillierten Ansicht

Bewährte Methoden für die menschliche Benotung

Schritt 4: Markieren von Beispielen

Zweck von Beispielen

Markieren von Beispielen

Wann man Beispiele markieren sollte

Wie viele Beispiele sollten Sie markieren?

Schritt 5: Grundlegendes zur Ausrichtung

Individuelle Testfallausrichtung

Ausrichtungsberechnung für einzelne Testfälle

Was ist eine gute Ausrichtung?

Fehlausrichtung analysieren

Schritt 6: Verfeinern und Speichern von Rubriken

Funktionsweise der Rubrikenverfeinerung

Verfeinern einer Rubrik

Schritt 7: Erneutes Ausführen von Tests

Schritt 8: Iteration

Workflowzusammenfassung

Tipps für eine erfolgreiche Verfeinerung

Beginnen Sie mit einer vernünftigen Basisrubrik

Verwenden konsistenter Testfälle

Ehrliche und gründliche Bewertung vornehmen

Konzentrieren Sie sich auf Muster, nicht auf einzelne Fälle

Strategische Verwendung von Beispielen

Überprüfen von KI-Rationalen

Mit Bedacht iterieren

Streben Sie nicht nach 100% Übereinstimmung

Testen mit neuen Daten schließlich

Häufige Probleme beheben

Die Ausrichtung verbessert sich nicht

KI ist konsequent zu lenient oder zu streng

Mensch und KI konzentrieren sich auf verschiedene Kriterien

Lange Antworten sind schwer zu benoten

Testfälle sind zu ähnlich

Nächster Schritt

Feedback

Zusätzliche Ressourcen