Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Rubrikverfeinerung ist ein iterativer Zyklus, der dazu beiträgt, KI-Bewertungen mit menschlichem Urteil auszurichten. Jede Iteration folgt einem systematischen Prozess:
Ausführen → Überprüfen → Benoten → Verfeinern → Speichern → Erneut ausführen → Wiederholen
Sie benötigen in der Regel mehrere Iterationen, bevor Sie eine akzeptable Ausrichtung erreichen. Diese Notwendigkeit für mehrere Iterationen wird erwartet und normal. Rubrikenverfeinerung ist ein Prozess der fortschreitenden Verbesserung, nicht eine einmalige Einrichtung.
Workflowschritte
Führen Sie die folgenden Schritte im Rubrikverfeinerungs-Workflow aus.
Schritt 1: Einen Durchlauf zur Rubrikverfeinerung starten
Der erste Schritt besteht darin, einen Testlauf im Rubrikeneinschränkungsmodus zu konfigurieren und auszuführen, wodurch KI-Benotung mit der von Ihnen definierten Rubrik ermöglicht wird. Während dieser Ausführung generiert das System KI-Noten und Rationale für jeden Generative Answer-Testfall, berechnet aber nicht den Pass- oder Fail-Status, da Sie die Rubrik noch verfeinern.
Voraussetzungen
- Ein Testsatz, der generative Antwort-Testfälle enthält.
- Eine Rubrik (anfängliche oder vorherige Iteration), die optimiert werden soll.
Konfiguration
So konfigurieren Sie eine Testausführung für die Rubrikenverfeinerung:
Erstellen oder Duplizieren einer Testausführung:
- Gehen Sie zu Ihrem Testset.
- Wählen Sie "Neu" oder "Duplizieren" aus, wenn Sie aus einer vorherigen Iteration verfeinern.
Konfigurieren Sie die Testausführung:
Name: Geben Sie einen beschreibenden Namen an (z. B. "Automotive Repair Rubric - Iteration 2").
Agent-Testsatz: Wählen Sie Ihren Testsatz mit generativen Antworttestfällen aus.
Agentkonfiguration: Wählen Sie die zu testde Agentkonfiguration aus.
Rubrik: Wählen Sie die Rubrik aus, die Sie verfeinern möchten.
Bestehensnote: Legen Sie die Bestehensnote fest (Standard ist 5).
Im Verfeinerungsmodus ist die Übergabenote nur informativ. Sie hilft dabei, Antworten unterhalb ihres Zielschwellenwerts zu identifizieren.
Führen Sie die Testausführung aus:
- Wählen Sie "Speichern" und "Schließen" aus, und führen Sie dann die Ausführung aus.
Das System führt jeden Testfall für generative Antwort aus. Es führt KI-Bewertungen mit detaillierter Begründung durch.
Was geschieht während der Ausführung?
Für jeden Testfall für generative Antwort:
- Der Agent reagiert auf die Testantwort.
- Der KI-Richter wertet die Antwort mithilfe der Rubrik aus.
- Der KI-Richter bewertet mit einer Note von 1 bis 5.
- Der KI-Richter erzeugt eine detaillierte Begründung zur Erläuterung der Noten.
Das System überspringt nicht-generative Antwort-Testfälle.
- Das System wertet nur Generative Antwort-Testtypen im Verfeinerungsmodus aus.
Schritt 2: Überprüfen der Ergebnisse - Rubrikverfeinerungsansichten
Verwenden Sie spezielle Rubrikverfeinerungsansichten, um die Ausrichtung zu bewerten, nachdem der Testlauf abgeschlossen ist. Die Schnittstelle bietet zwei Hauptansichten zur Unterstützung einer unvoreingenommenen menschlichen Bewertung.
Forschung zeigt, dass die Anzeige von KI-Noten menschliches Urteil beeinträchtigen kann. Um diese Verzerrung zu vermeiden, stellt die Schnittstelle die folgenden beiden Ansichten bereit:
- Standardüberprüfungsansicht: Blendet KI-Bewertungen für unvoreingenommene menschliche Bewertungen aus.
- Vollständige Verfeinerungsansicht: Zeigt KI-Noten für den Ausrichtungsvergleich an.
Wechseln Sie je nach Aufgabe zwischen diesen Ansichten.
Standardverfeinerungsansicht
Der folgende Screenshot zeigt die Standardansicht der Verfeinerung. Es blendet KI-Noten und Rationale aus, damit Sie unvoreingenommene menschliche Benotung bereitstellen können:
- Zweck: Bietet unvoreingenommene menschliche Auswertung ohne KI-Einfluss.
-
Verwendungsbedingungen:
- Beim ersten Überprüfen von Antworten und der Vergabe von Noten durch Menschen.
- Wenn Sie gute oder schlechte Beispiele festlegen.
- Wenn Sie Verzerrungen von KI-Bewertungen vermeiden möchten.
-
Was ist sichtbar:
- Testen Sie die Äußerung (was der Benutzer gefragt hat).
- Agent-Antwort (was der Copilot beantwortet hat).
- Manuelle Benotungsfelder (anfänglich leer):
- Human Grade Auswahl (1-5).
- Textfeld für menschliches Denken .
- Als Beispiel-Umschalter markiert .
- Beispieltyp-Auswahl (Gutes Beispiel oder schlechtes Beispiel).
-
Was ist verborgen:
- KI-Einstufung
- KI-Rationale
-
Navigation:
- In der Listenansicht werden alle Testfälle in einer Tabelle angezeigt.
- Wählen Sie eine beliebige Zeile aus, um eine detaillierte Ansicht für längere Antworten zu öffnen.
Vollständige Verfeinerungsansicht
Der folgende Screenshot zeigt die vollständige Verfeinerungsansicht. Es umfasst KI-Noten und Rationale, damit Sie menschliche und KI-Bewertungen vergleichen können:
- Zweck: Vergleichen Sie KI und menschliche Bewertungen, um die Ausrichtung zu verstehen.
-
Verwendungsbedingungen:
- Nach der Bereitstellung menschlicher Noten, um diese mit KI zu vergleichen.
- Um zu verstehen, warum eine Fehlausrichtung aufgetreten ist.
- Um Muster im KI-Denken zu identifizieren.
- Bei der Analyse, welche Antworten Beispiele benötigen.
-
Was ist sichtbar: Alles aus standardansicht, plus:
- KI-Klasse (1-5)
- KI-Rationale (detaillierte Begründung)
-
Ausrichtungsindikator: Visueller Indikator, der anzeigt, ob menschliche und KI-Noten übereinstimmen.
- Ausgerichtet: KI-Bewertung = Menschliche Bewertung
- Falsch ausgerichtet: KI-Note ≠ Menschliche Note
-
Wichtige Einblicke: Die vollständige Ansicht hilft Ihnen, Fehlausrichtungsmuster zu verstehen.
- Ist die KI konsequent zu lenient oder zu streng?
- Welche Kriterien unterstreicht oder verpasst die KI?
- Welche Arten von Antworten verwechseln die KI?
Schritt 3: Menschliches Bewertungsverfahren
Die präzise und durchdachte menschliche Bewertung ist für eine effektive Überarbeitung der Bewertungsraster von entscheidender Bedeutung.
Option A: Listenansichtsbewertung
Verwenden Sie die Listenansicht (Standard oder Vollständig) für schnelle Benotung:
- Überprüfen Sie jeden Testfall in der Tabelle.
- Lesen Sie die Testäußerung und die Agentantwort.
- Weisen Sie eine Benotung (1-5) basierend auf den Rubrikenkriterien zu.
- Geben Sie eine Begründung ein, in der Ihre Noten erläutert werden.
- Wechseln zum nächsten Testfall.
Vorteile:
- Schnell für kurze Antworten.
- Gute Übersicht über alle Fälle.
- Effizient für große Testsätze.
Nachteile:
- Begrenzter Platz zum Anzeigen längerer Antworten.
- Weniger detaillierter Kontext.
Option B: Detaillierte Benotung der Ansicht
Verwenden Sie die detaillierte Ansicht für längere, komplexe Antworten:
- Wählen Sie einen beliebigen Testfall in der Listenansicht aus, um eine detaillierte Ansicht zu öffnen.
- Überprüfen Sie den vollständigen Unterhaltungskontext:
- Die Testäußerung wird deutlich angezeigt.
- Vollständige Agentantwort mit vollständiger Formatierung.
- Navigieren zwischen Testfällen:
- Öffnen Sie die Datensatzbrowseransicht auf der linken Seite, und wählen Sie verschiedene Testfälle aus.
- Wechseln zwischen den Tabs Verfeinerung und Rubrikverfeinerung (Vollständig).
- Wählen Sie die Benotung (1-5) aus der Liste " Human Grade " aus.
- Stellen Sie menschliches Denken bereit:
- Erläutern, warum Sie diese Note zugewiesen haben.
- Verweisen Sie auf bestimmte Rubrikenkriterien.
- Beachten Sie alle Stärken oder Schwächen.
- Die Begründung ist für die Verfeinerung obligatorisch.
- Aktivieren Sie " Als Beispiel markiert" bei Bedarf auf "Ja". Weitere Informationen finden Sie in Schritt 4: Markieren von Beispielen.
Vorteile:
- Vollständiger Kontext für komplexe Antworten.
- Besser für sorgfältige, durchdachte Bewertung.
- Einfacheres Verweisen auf Rubriken während der Benotung.
Komponenten der detaillierten Ansicht
Die detaillierte Ansicht enthält zwei Registerkarten:
-
Verfeinerungsregisterkarte (KI ausgeblendet):
- Testen der Äußerung
- Agent-Antwort
- Auswahl des menschlichen Grades (erforderlich)
- Textfeld "Human Reasoning" (erforderlich)
- Als Beispiel-Umschalter markiert
- Beispiel-Typauswahl
-
Rubrikverfeinerung (Vollständig) (AI Visible):
- Zusätzlich zu den oben genannten Punkten:
- KI-Klasse
- KI-Begründung
- Ausrichtungsindikator
Bewährte Methoden für die menschliche Benotung
Ohne zuerst die KI-Bewertung zu sehen, Noten vergeben:
- Verwenden Sie die Ansicht "Standardverfeinerung" oder die Registerkarte "Verfeinern".
- Bilden Sie Ihre eigene Meinung, bevor Sie mit KI vergleichen.
Seien Sie mit Rubrikenkriterien konsistent:
- Verweisen Sie auf die Rubrikendefinitionen.
- Wenden Sie die gleichen Standards für alle Testfälle an.
- Benoten Sie nicht nach einer Kurve – verwenden Sie absolute Maßstäbe.
Detailliertes Schreiben von Gründen:
- Erläutern, welche Rubrikenkriterien erfüllt oder verpasst wurden.
- Seien Sie spezifisch für Stärken und Schwächen.
- Ihre Begründung hilft KI zu verstehen, auf was sie sich konzentrieren sollten.
Beispiel für gute Begründung:
Grade 4 (Strong): Response includes accurate technical information about the issue and provides clear next steps. Tone is professional and reassuring. However, it lacks specific timeline estimates that would make it exemplary (Grade 5). All major IR elements present but could be more investor-ready.Beispiel für schlechtes Denken:
Grade 4: Pretty good.Lassen Sie sich nicht durch Pass oder Fail beeinflussen:
- Das Ziel ist die Ausrichtung, nicht das Erreichen von Punktzahlen.
- Benoten Sie ehrlich auf der Grundlage von Qualität, nicht auf den gewünschten Ergebnissen.
Benoten Sie alle Testfälle gleichmäßig:
- Abschließen der Benotung für den gesamten Testsatz.
- Die inkonsistente Benotung reduziert die Effektivität der Verfeinerung.
Weitere Informationen finden Sie in den bewährten Methoden und Tipps zur Verfeinerung von Rubriken.
Schritt 4: Markieren von Beispielen
Beispiele verbessern die Rubrikenqualität erheblich, indem konkrete Illustrationen von guten und schlechten Antworten bereitgestellt werden.
Zweck von Beispielen
Beispiele helfen der KI zu verstehen:
- Wie gut tatsächlich in der Praxis aussieht.
- Was schlechte Antworten enthalten , macht sie inakzeptabel.
- Edgefälle, in denen Kriterien möglicherweise unklar sind.
- Kontext und Nuance , den Textbeschreibungen nicht vollständig erfassen können.
Markieren von Beispielen
In der Listenansicht oder in der detaillierten Ansicht:
- "Als Beispiel markiert" auf "Ja" ändern.
-
Beispieltyp auswählen:
- Gutes Beispiel: Veranschaulicht eine qualitativ hochwertige Antwort.
- Schlechtes Beispiel: Veranschaulicht eine Antwort von schlechter Qualität.
- Das System erfasst:
- Testen der Äußerung
- Agent-Antwort
- Ihre Beispielbezeichnung (gut oder schlecht)
Wann man Beispiele markieren sollte
Erwägen Sie, einen Testfall als Beispiel zu markieren, wenn:
Gutes Beispiel:
- Antwort ist Klasse 5 (Exemplarisch) und zeigt eine ideale Qualität.
- Antwort ist Klasse 4 und zeigt alle wichtigen Kriterien an, auch wenn sie nicht perfekt sind.
- Die Antwort behandelt ein komplexes Szenario besonders gut.
- Sie möchten bestimmte positive Verhaltensweisen verstärken.
Schlechtes Beispiel:
- Die Antwort ist Klasse 1 (verbesserungswürdig) und erfüllt die Erwartungen deutlich nicht.
- Antwort ist Stufe 2 und zeigt häufige Fehler, die vermieden werden sollten.
- Die Antwort veranschaulicht einen bestimmten Stolperstein oder Fehlermodus.
- Sie möchten klären, wie "nicht akzeptabel" aussieht.
Entweder:
- Der Testfall stellt einen Randfall oder ein mehrdeutiges Szenario dar.
- Es gibt Unstimmigkeiten zwischen KI- und menschlichen Bewertungen (was dazu beiträgt, Ihre Bewertungsstandards zu verdeutlichen).
- Der Testfall ist besonders repräsentativ für gemeinsame Muster.
Wie viele Beispiele sollten Sie markieren?
- Qualität über Quantität: Einige gut gewählte Beispiele sind besser als viele mittelmäßig.
- Balance gut und schlecht: Berücksichtigen Sie beide Aspekte, um klare Grenzen festzulegen.
- Vielfalt darstellen: Behandeln Sie verschiedene Arten von Abfragen und Antworten.
Tipp
Konzentrieren Sie sich auf Testfälle, in denen eine Fehlausrichtung besteht. In diesen Beispielen wird häufig klargestellt, wo die Rubrik mehrdeutig ist.
Schritt 5: Grundlegendes zur Ausrichtung
Die Übereinstimmung zeigt an, ob die Bewertungen der KI und des Menschen übereinstimmen.
Individuelle Testfallausrichtung
Für jeden Testfall:
- Ausgerichtet: KI-Bewertung = Menschliche Bewertung
- Falsch ausgerichtet: KI-Note ≠ Menschliche Note
Ausrichtungsberechnung für einzelne Testfälle
Berechnen Sie für jeden Testfall die Ausrichtung zwischen KI-generierten Antworten und menschlichen Erwartungen mithilfe der linearen Interpolation von 100% (perfekte Übereinstimmung) auf 0% (maximal unterschiedlich).
Interpretation:
- Wenn KI-Bewertung = Menschliche Bewertung, Übereinstimmung = 100%.
- Da der Gradunterschied zunimmt, nimmt die Ausrichtung linear ab.
- Der maximale Unterschied auf einer Skala von 1 bis 5 beträgt 4 Stufen, die 0 % zugeordnet sind.
Formel:
alignment = 100 % * (1 - (KI - Mensch) / 4)
Resultierende Ausrichtungsmatrix:
| KI ↓ / Mensch → | 1 | 2 | 3 | 4 | 5 |
|---|---|---|---|---|---|
| 1 | 100 % | 75% | 50 % | 25 % | 0 % |
| 2 | 75% | 100 % | 75% | 50 % | 25 % |
| 3 | 50 % | 75% | 100 % | 75% | 50 % |
| 4 | 25 % | 50 % | 75% | 100 % | 75% |
| 5 | 0 % | 25 % | 50 % | 75% | 100 % |
Eigenschaften:
- Symmetrisch: Die Ausrichtung ist gleich, unabhängig davon, welcher Wert KI ist und welcher Mensch ist.
- Diagonal = 100%: Perfekte Ausrichtung, wenn KI- und menschliche Bewertungen übereinstimmen.
- Äußerste Ränder = 0%: Größtmögliche Fehlausrichtung, wenn Noten an gegenüberliegenden Enden der Skala liegen.
- Glatte, lineare Interpolation: Die Ausrichtung nimmt gleichmäßig ab, wenn die Differenz zunimmt.
Was ist eine gute Ausrichtung?
Es gibt keinen absoluten Standard, aber verwenden Sie diese allgemeinen Richtlinien für den durchschnittlichen Ausrichtungsprozentsatz des gesamten Rubrikverfeinerungslaufs.
| Ausrichtungsgrad % | Assessment | Action |
|---|---|---|
| 90-100% | Ausgezeichnet | Die Struktur ist äußerst zuverlässig; Erwägen, in den Testmodus zu wechseln. |
| 75-89% | Gut | Rubrik ist größtenteils abgestimmt; Sonderfälle verfeinern. |
| 60-74% | Durchschnittlich | Rubriken müssen verbessert werden; konzentrieren Sie sich auf Ausrichtungsfehler. |
| < 60% | Schlecht | Rubrik erfordert erhebliche Verfeinerung oder Neugestaltung. |
Fehlausrichtung analysieren
Bei Fehlausrichtung überprüfen Sie Folgendes:
Richtung der Fehlausrichtung:
- Bewertet die KI konsequent besser oder schlechter als Menschen?
- Dieses Muster weist auf systematische Verzerrungen in der Rubrik hin.
Muster bei fehlausgerichteten Fällen:
- Verursachen bestimmte Arten von Antworten eine Fehlausrichtung?
- Werden bestimmte Kriterien falsch interpretiert?
Größe der Fehlausrichtung:
- Um 1 Punkt abweichend (z. B. AI=4, Human=5) → Kleinere Korrektur erforderlich.
- Um 2+ Punkte (z. B. AI=2, Mensch=5) → Erhebliche Klarstellung erforderlich.
AI-Begründungen lesen (Vollansicht):
- Auf welche Kriterien hat sich die KI konzentriert?
- Was hat die KI verpasst, dass der Mensch bemerkt hat?
- Ist die KI die Sprache der Bewertungsrichtlinien falsch interpretiert?
Schritt 6: Verfeinern und Speichern von Rubriken
Nachdem Sie menschliche Bewertungen durchgeführt, Beispiele markiert und die Ausrichtung analysiert haben, sind Sie bereit, die Bewertungsskala zu verfeinern.
Funktionsweise der Rubrikenverfeinerung
Wenn Sie "Rubrik verfeinern" auswählen, analysiert KI Folgendes:
Aktueller Rubrikinhalt:
- Beschreibung "Wie gute Antwort aussieht"
- Notendefinitionen (1-5)
- Vorhandene Beispiele
Menschliche Bewertungen und Argumentation:
- Wie Sie jede Antwort bewertet haben
- Ihre Erklärungen für Noten
KI-Bewertungen und Begründungen:
- Wie die KI die Rubrik interpretiert hat
- Wo das KI-Denken von menschlichem Denken abweicht
Markierte Beispiele:
- Testen von Äußerungs- und Antwortpaaren
- Gute oder schlechte Bezeichnungen
- Kontext zu dem, was sie beispielhaft oder schlecht macht
Ausrichtungsmuster:
- Welche Kriterien eine konsistente Fehlausrichtung verursachen
- Wo die Rubrik mehrdeutig ist
- Was muss klargestellt werden?
Die KI aktualisiert dann die Rubrik, um die Ausrichtung zu verbessern, indem:
- Klarstellen von mehrdeutigen Sprachen
- Genauere Definition von Bewertungskriterien
- Integrieren von Beispielen
- Anpassung der Betonung auf die Kriterien
- Entfernen von Widersprüchen oder Verwirrung
Verfeinern einer Rubrik
So verfeinern Sie eine Rubrik:
Wählen Sie in der Rubrik-Überarbeitungsansicht die Option "Rubrik verfeinern" aus.
Das System verarbeitet alle Benotungsdaten und generiert eine Verfeinerung.
Überprüfen Sie die verfeinerte Rubrik. Das System zeigt möglicherweise eine Vorschau an.
Wählen Sie eine Speicheroption aus:
-
Speichern (Überschreiben): Verwenden Sie diese Option, wenn Sie die gleiche Rubrik durchlaufen und den Verlauf nicht beibehalten müssen.
- Ersetzt die vorhandene Rubrik durch die verfeinerte Version.
- Die ursprüngliche Version geht verloren (kein Versionsverlauf in MVP).
-
Speichern unter (Neu erstellen): Verwenden Sie diese Option, wenn Sie Versionen vergleichen oder einen Basisplan beibehalten möchten.
- Erstellt eine neue Rubrik mit einem anderen Namen.
- Behält die ursprüngliche Rubrik bei.
Empfehlung: Verwenden Sie für frühe Iterationen " Speichern unter " zum Beibehalten des Verlaufs (z. B. "IR-Bericht v1", "IR-Bericht v2"). Nachdem sich die Rubrik stabilisiert hat, verwenden Sie Speichern zum Iterieren.
-
Speichern (Überschreiben): Verwenden Sie diese Option, wenn Sie die gleiche Rubrik durchlaufen und den Verlauf nicht beibehalten müssen.
Schritt 7: Erneutes Ausführen von Tests
Testen Sie nach dem Speichern der optimierten Rubrik, ob die Ausrichtung verbessert wurde:
Duplizieren Sie die Testausführung:
- Wechseln Sie zur abgeschlossenen Testausführung.
- Wählen Sie "Doppelt ausführen" aus.
Wird mit der aktualisierten Rubrik ausgeführt:
- Die duplizierte Ausführung verwendet das verfeinerte Bewertungsschema.
- Führen Sie das Programm mit demselben Testsatz aus.
Vergleich der Ausrichtungsmetriken:
- Hat sich der Prozentsatz der Ausrichtung erhöht?
- Sind bisher falsch ausgerichtete Elemente jetzt richtig ausgerichtet?
Überprüfen Sie die Ergebnisse:
- Verwenden Sie die vollständige Verfeinerungsansicht, um die Ausrichtung zu überprüfen.
- Beachten Sie alle verbleibenden Fehlausrichtungen.
Schritt 8: Iteration
Die Verfeinerung einer Rubrik ist selten nach einem Zyklus abgeschlossen. Wiederholen Sie den Vorgang.
Erneut ausführen → Überprüfen → Bewerten → Verfeinern → Speichern → Wiederholen.
Nachverfolgen des Fortschritts:
- Überwachen Des Ausrichtungsprozentsatzes über Iterationen hinweg.
- Beachten Sie, welche Arten von Fehlausrichtungen weniger werden.
Strategie anpassen:
- Wenn die Ausrichtung nicht verbessert wird, sollten Sie den Rubrikenansatz überdenken.
- Fügen Sie weitere Beispiele für dauerhafte Fehlausrichtungsmuster hinzu.
- Vereinfachen Sie übermäßig komplexe Kriterien.
Wissen Sie, wann Sie aufhören müssen:
- Wenn die Ausrichtung eine akzeptable Ebene erreicht (in der Regel 75-90% oder höher).
- Wenn zusätzliche Iterationen abnehmende Rückgaben zeigen.
- Wenn die Rubrik zuverlässig Qualitätsprobleme identifiziert.
Workflowzusammenfassung
| Schritt | Action | Output |
|---|---|---|
| 1. Startlauf | Konfigurieren Sie die Testausführung mit Rubriken auf Testlaufebene. | KI-Noten und -Rationale generiert |
| 2. Überprüfung | Öffnen Sie die Rubrikverfeinerungsansicht (Standard oder Vollständig). | Kontext für die Benotung |
| 3. Stufe (Mensch) | Stellen Sie Noten (1-5) und Gründe für alle Testfälle bereit. | Aufgezeichnete Menschliche Bewertungen |
| 4. Markieren von Beispielen | Wählen Sie gute oder schlechte Beispiele aus. | Beispiele, die zur Verfeinerung erfasst wurden |
| 5. Grundlegendes zur Ausrichtung | Vergleich von KI und menschlichen Noten; Analysieren von Mustern. | Ausrichtungsprozentsatz und Einblicke |
| 6. Verfeinern und Speichern | Wählen Sie "Rubrik verfeinern" aus. wählen Sie eine Speicheroption aus. | Aktualisierte Rubrik |
| 7. Erneute Ausführung | Doppelte Ausführung und Durchführung mit verfeinertem Kriterienkatalog. | Neue Ausrichtungsdaten |
| 8. Iterate | Wiederholen Sie den Vorgang, bis die Ausrichtung akzeptabel ist. | Zuverlässiger, vertrauenswürdiger Kriterienkatalog |
Tipps für eine erfolgreiche Verfeinerung
Der Workflow zur Rubrikenverfeinerung kann komplex sein. Hier sind einige Tipps, mit denen Sie effektiv im Prozess navigieren können.
Beginnen Sie mit einer vernünftigen Basisrubrik
Erwarten Sie keine Perfektion von Ihrer anfänglichen Rubrik. Konzentrieren Sie sich auf:
- Klare Aussage darüber, "wie gut aussieht"
- Grundlegende Benotungsdefinitionen mit feststellbaren Kriterien
- Von dort aus verfeinern
Verwenden konsistenter Testfälle
Verwenden Sie denselben Testsatz in mehreren Iterationen, um die Verbesserung der Ausrichtung zu verfolgen. Das Ändern von Testfällen macht es schwierig, den Fortschritt zu messen.
Ehrliche und gründliche Bewertung vornehmen
Ihre menschlichen Bewertungen sind der "Referenzwert" für die Verfeinerung. Zeit investieren in:
- Durchdachte Auswertung
- Detaillierte Begründung
- Einheitliche Anwendung von Standards
Konzentrieren Sie sich auf Muster, nicht auf einzelne Fälle
Ein falsch ausgerichteter Testfall ist keine Krise. Suchen nach:
- Systematische Muster bei Fehlausrichtung
- Wiederholte Fehler in mehreren Testfällen
Strategische Verwendung von Beispielen
Beispiele haben eine starke Wirkung, aber übertreibe es nicht.
- Konzentrieren Sie sich auf falsch ausgerichtete Fälle und Edgefälle
- Gute und schlechte Beispiele ausgleichen
Überprüfen von KI-Rationalen
Die Begründung der KI (Vollansicht) zeigt, wie sie Ihre Rubrik interpretiert:
- Wenn sich die KI auf die falschen Kriterien konzentriert, klären Sie die Rubrik
- Wenn die KI wichtige Punkte verpasst, machen Sie sie prominenter
- Wenn die KI ungerade Logik verwendet, fügen Sie Beispiele hinzu, um sie zu leiten.
Mit Bedacht iterieren
Zielspezifische Verbesserungen für jede Iteration:
- Iteration 1: Beheben wichtiger Fehlausrichtungsmuster
- Iteration 2: Hinzufügen von Beispielen für Edgefälle
- Iteration 3: Feinabstimmung der Sprache für bestehende Diskrepanzen
Streben Sie nicht nach 100% Übereinstimmung
Perfekte Ausrichtung ist selten erreichbar oder notwendig. Konzentrieren Sie sich stattdessen auf:
- Einige Subjektivität ist in der Bewertung inhärent
- Abnehmender Ertrag nach ~85-90% Ausrichtung
- Vertrauenswürdige Benotung, nicht Perfektion
Testen mit neuen Daten schließlich
Testen Sie nach mehreren Iterationen das Bewertungsschema an neuen Testfällen, um:
- Stellen Sie sicher, dass die Rubrik über Ihren Schulungssatz hinaus generalisiert wird.
- Überanpassung an bestimmte Beispiele verhindern
Häufige Probleme beheben
Während der Verfeinerung der Rubriken können eventuell häufige Herausforderungen auftreten. Hier sind einige Probleme, die auftreten können, zusammen mit möglichen Ursachen und Lösungen.
Die Ausrichtung verbessert sich nicht
Mögliche Ursachen
- Rubrikenkriterien sind zu subjektiv oder vage
- Menschliche Benotung ist inkonsistent
- Beispiele veranschaulichen keine eindeutigen Standards
Lösungen:
- Vereinfachen der Rubriksprache; konkrete, feststellbare Kriterien verwenden
- Testfälle neu bewerten mit konsistenteren Standards
- Hinzufügen von mehr Beispielen, insbesondere für Randfälle.
KI ist konsequent zu lenient oder zu streng
Mögliche Ursachen
- Notendefinitionen unterscheiden keine eindeutigen Ebenen
- "Wie gutes Aussehen aussieht, erzeugt falsche Erwartungen"
Lösungen:
- Schärfen von Unterscheidungen zwischen Notenstufen
- Hinzufügen von Beispielen mit Grenzfällen
- Überarbeiten Sie "wie ein guter Standard aussieht", um den richtigen Maßstab festzulegen.
Mensch und KI konzentrieren sich auf verschiedene Kriterien
Mögliche Ursachen
- Rubrik listet zu viele Kriterien ohne Priorisierung auf.
- Wichtige Kriterien sind begraben oder unklar
Lösungen:
- Kriterien explizit in Benotungsdefinitionen priorisieren
- Führen mit den wichtigsten Kriterien
- Verwenden von Beispielen zum Veranschaulichen der Priorität
Lange Antworten sind schwer zu benoten
Lösungen:
- Verwenden der detaillierten Ansicht für den vollständigen Kontext
- Unterteilen Sie die Auswertung in Dimensionen (Genauigkeit, Ton, Vollständigkeit) und bewerten Sie die einzelnen Werte.
- Überlegen Sie, ob sich Rubriken auf bestimmte Aspekte und nicht auf die allgemeine Qualität konzentrieren sollen.
Testfälle sind zu ähnlich
Lösungen:
- Erweitern des Testsatzes, um Vielfalt einzuschließen
- Hinzufügen von Testfällen, die Edgefälle, verschiedene Abfragetypen, komplexe Szenarien abdecken
- Verwenden der Testfallgenerierung (P1-Feature) bei Verfügbarkeit