Wählen Sie Bewertungsmethoden

[Dieser Artikel ist Teil der Dokumentation zur Vorabversion und kann geändert werden.]

Wenn Sie Testsätze erstellen, wählen Sie aus verschiedenen Testmethoden, um die Antworten Ihres Agenten zu bewerten. Jede Testmethode hat ihre eigenen Stärken und eignet sich für unterschiedliche Arten von Bewertungen.

Prüfmethode	Maßnahmen	Bewertung	Configurations
Allgemeine Qualität	Wie gut ist die Antwort eines Testfalls basierend auf spezifischen Eigenschaften	Bewertet mit maximal 100%	Nichts
Bedeutung vergleichen	Wie gut die Bedeutung der Antwort des Testfalls mit der erwarteten Antwort übereinstimmt	Bewertet mit maximal 100%	Bestehensgrenze, erwartete Antwort
Werkzeuggebrauch	Ob der Testfall die erwarteten Ressourcen verwendet hat	Bestanden/Nicht bestanden	Erwartete Fähigkeiten
Schlüsselwort-Übereinstimmung	Ob der Testfall alle oder einige der erwarteten Schlüsselbegriffe oder Phrasen verwendet hat	Bestanden/Nicht bestanden	Erwartete Schlüsselwörter oder -phrasen
Textähnlichkeit	Wie gut der Text der Antwort des Testfalls mit der erwarteten Antwort übereinstimmt	Bewertet mit maximal 100%	Bestehensgrenze, erwartete Antwort
Genaue Übereinstimmung	Ob die Antwort des Testfalls genau mit der erwarteten Antwort übereinstimmt	Bestanden/Nicht bestanden	Erwartete Antwort
Benutzerdefiniert	Kennzeichnet Antworten basierend auf den von Ihnen beschriebenen Kriterien	Bestanden/Nicht bestanden	Testbeschreibungen und Beschriftungsbeschreibungen

Hinzufügen einer Testmethode

Wenn Sie ein Testset erstellen oder bearbeiten , wählen Sie Testmethode hinzufügen.
Wähle alle Methoden aus, mit denen du testen möchtest, und wähle dann OK. Du kannst mehrere Methoden hinzufügen.
1. Einige Methoden erfordern eine Mindestpunktzahl zum Bestehen. Die Bestehensnote bestimmt, welche Punktzahl zu einem Bestehen oder Nichtbestehen führt. Setzen Sie die Punktzahl und wählen Sie dann OK.
2. Einige Testmethoden erfordern weitere Kriterien.
Wählen Sie Speichern , um Ihre Änderungen im Testset zu speichern.

Wählen Sie eine bestehende Testmethode aus, um die Kriterien dieser Methode zu bearbeiten, oder löschen Sie diese Methode.

Allgemeine Qualität

Die allgemeine Qualität hilft Ihnen zu entscheiden, ob die Antworten Ihres Maklers Ihren Standards entsprechen. Es verwendet ein Sprachmodell, um zu bewerten, wie effektiv ein Agent Nutzerfragen beantwortet.

Die allgemeine Qualität ist besonders hilfreich, wenn keine genaue Antwort erwartet wird. Es bietet eine flexible und skalierbare Möglichkeit, Antworten basierend auf den abgerufenen Dokumenten und dem Gesprächsfluss zu bewerten.

Es verwendet diese Schlüsselkriterien und wendet eine konsistente Aufforderung an, um die Bewertung zu leiten.

Relevanz: Inwieweit die Antwort des Agents die Frage behandelt. Bleibt beispielsweise die Antwort des Agenten auf dem Thema und beantwortet die Frage direkt?
Fundierung: Inwieweit die Reaktion des Agents auf dem bereitgestellten Kontext basiert. Verweist beispielsweise der Antwortverweis des Agents auf die im Kontext angegebenen Informationen oder stützt er darauf ab, anstatt nicht zusammenhängende oder nicht unterstützte Informationen einzuführen?
Vollständigkeit: Inwieweit die Antwort des Agents alle erforderlichen Informationen bereitstellt. Deckt die Reaktion des Agents beispielsweise alle Aspekte der Frage ab und liefert ausreichende Details?
Enthaltung: Gibt an, ob der Agent versucht hat, die Frage zu beantworten.

Um als qualitativ hochwertig zu gelten, muss eine Antwort all diese wichtigen Kriterien erfüllen. Wenn ein Kriterium nicht erfüllt ist, wird die Antwort zur Verbesserung markiert. Diese Bewertungsmethode stellt sicher, dass nur Antworten, die sowohl vollständig als auch gut unterstützt werden, Topmarkierungen erhalten. Im Gegensatz dazu erhalten Antworten, die unvollständig sind oder keine unterstützenden Nachweise enthalten, niedrigere Bewertungen.

Beim Hinzufügen oder Bearbeiten von Testmethoden wählen Sie allgemeine Qualität. Alle Testsätze beginnen standardmäßig mit dieser Methode.

Du musst keine erwarteten Antworten in Testfälle hinzufügen, um eine allgemeine Qualitätsbewertung abzuschließen.

Bedeutung vergleichen

Vergleich der Bedeutung wertet aus, wie gut die Antwort des Agents die beabsichtigte Bedeutung der erwarteten Antwort widerspiegelt. Anstatt sich auf die genaue Formulierung zu konzentrieren, verwendet es die Ähnlichkeit der Absicht, das heißt, es vergleicht die Ideen und Bedeutungen hinter den Worten, um zu beurteilen, wie eng die Antwort mit den Erwartungen übereinstimmt.

Wie bei der allgemeinen Qualität ist Compare Meaning besonders hilfreich, wenn keine genaue Antwort erwartet wird. Es bietet eine flexible und skalierbare Möglichkeit, Antworten basierend auf den abgerufenen Dokumenten und dem Gesprächsfluss zu bewerten.

Sie können einen Schwellenwert für das Übergeben von Bewertungen festlegen, um zu bestimmen, was eine Übergabebewertung für eine Antwort darstellt. Die standardmäßige Bestehensgrenze liegt bei 50. Die Testmethode für den Bedeutungsvergleich ist nützlich, wenn eine Antwort auf verschiedene richtige Weise formuliert werden kann, aber die allgemeine Bedeutung oder Absicht muss immer noch durchkommen.

Beim Hinzufügen oder Bearbeiten von Testmethoden wählen Sie "Bedeutung vergleichen" aus.
Setzen Sie für diese Methode die Bestehenspunktzahl.
Füge die erwarteten Antworten hinzu. Jeder Testfall ohne erwartete Antworten erzeugt ein ungültiges Ergebnis für diese Testmethode.
1. Wählen Sie einen Testfall aus.
2. Füge die Antwort hinzu, die du erwartest.
3. Wählen Sie Anwenden, um die erwartete Antwort zu speichern.
4. Wiederhole das für alle Testfälle, die du mit dieser Methode testen möchtest.

Werkzeuggebrauch

Die Nutzung von Werkzeugen prüft, ob der Agent während des Ausführungsprozesses spezifische Werkzeuge oder Themen auslöst. Wenn dies der Fall ist, wird das Ergebnis als Pass markiert. Ist dies nicht der Fehler, wird das Ergebnis als Fehler markiert.

Wenn Sie Testmethoden hinzufügen oder bearbeiten, wählen Sie "Tool verwenden" aus.
Füge die erwarteten Werkzeuge oder Themen hinzu. Jeder Testfall ohne erwartete Antworten erzeugt ein ungültiges Ergebnis für diese Testmethode.
1. Wählen Sie einen Testfall aus. Wenn Sie dieselben erwarteten Tools und Themen für alle Testfälle hinzufügen möchten, wählen Sie das Symbol "Bearbeiten" in der Spaltenüberschrift "Tool" aus.
2. Wählen Sie im Bereich " Testfall bearbeiten " die Tools aus, die Ihr Agent für diesen Testfall verwenden soll.
3. Wählen Sie OK aus.
4. Wählen Sie Übernehmen aus, um Änderungen zu speichern.
5. Wiederholen Sie diesen Vorgang für alle Testfälle, die Sie für die Verwendung von Tools testen möchten.

Schlüsselwort-Übereinstimmung

Schlüsselwort-Übereinstimmung überprüft, ob die Antwort des Agents einige oder alle Wörter oder Ausdrücke aus der erwarteten Antwort enthält, die Sie definieren. Wenn dies der Fall ist, wird sie übergeben. Wenn es nicht der Fall ist, schlägt sie fehl. Keyword Match ist nützlich, wenn eine Antwort auf unterschiedliche korrekte Weise formuliert werden kann, Schlüsselbegriffe oder Ideen aber dennoch in die Antwort aufgenommen werden müssen.

Du kannst auswählen, ob ein Pass eines der Schlüsselwörter oder alle davon benötigt. Die Wahl von Any bedeutet, dass der Testfall besteht, wenn mindestens ein Wort oder eine Phrase übereinstimmt. Alle auswählen bedeutet, dass alle erwarteten Wörter oder Phrasen übereinstimmen müssen, damit ein Testfall erfolgreich ist.

Beim Hinzufügen oder Bearbeiten von Testmethoden wählen Sie Keyword-Match.
Wähle aus, ob ein Testfall eine beliebige oderalle Schlüsselwörter benötigt, die übereinstimmen.
Füge die erwarteten Schlüsselwörter hinzu. Jeder Testfall ohne erwartete Schlüsselwörter erzeugt ein ungültiges Ergebnis für diese Testmethode.
1. Wählen Sie einen Testfall aus.
2. Fügen Sie im Bereich " Testfall bearbeiten " ein Schlüsselwort oder einen Ausdruck hinzu, für den Sie die Antwort dieses Falls erwarten.
3. Wählen Sie +Hinzufügen aus, um weitere Schlüsselwörter oder Ausdrücke hinzuzufügen. Wenn Sie ein Schlüsselwort oder einen Ausdruck entfernen möchten, wählen Sie das Symbol "Löschen " aus.
4. Wählen Sie Apply, um die erwarteten Schlüsselwörter zu speichern.
5. Wiederhole das für alle Testfälle, die du auf Keyword-Matching testen möchtest.

Textähnlichkeit

Die Ähnlichkeitstestmethode vergleicht die Ähnlichkeit der Antworten des Agenten mit den erwarteten Antworten, die Sie in Ihrem Testset definieren. Es ist nützlich, wenn eine Antwort auf verschiedene richtige Weise formuliert werden kann, aber die allgemeine Bedeutung oder Absicht muss immer noch durchkommen.

Es verwendet ein Kosinus-Ähnlichkeitsmaß, um zu beurteilen, wie ähnlich die Antwort des Agenten dem Wortlaut und der Bedeutung der erwarteten Antwort ist und eine Bewertung bestimmt. Die Punktzahl liegt zwischen 0 und 1, wobei 1 die Antwort genau übereinstimmt und 0 darauf hinweist, dass dies nicht der Punkt ist. Sie können einen Schwellenwert für das Übergeben von Bewertungen festlegen, um zu bestimmen, was eine Übergabebewertung für eine Antwort darstellt.

Beim Hinzufügen oder Bearbeiten von Testmethoden wählen Sie Textähnlichkeit.
Setzen Sie für diese Methode die Bestehenspunktzahl.
Füge die erwarteten Antworten hinzu. Jeder Testfall ohne erwartete Antworten erzeugt ein ungültiges Ergebnis für diese Testmethode.
1. Wählen Sie einen Testfall aus.
2. Füge die Antwort hinzu, die du erwartest.
3. Wählen Sie Anwenden, um die erwartete Antwort zu speichern.
4. Wiederhole das für alle Testfälle, die du mit dieser Methode testen möchtest.

Genaue Übereinstimmung

Genaue Übereinstimmung überprüft, ob die Antwort des Agents exakt der erwarteten Antwort im Test entspricht: Zeichen für Zeichen, Wort für Wort. Wenn es gleich ist, besteht es. Wenn etwas anders ist, schlägt es fehl. Genaue Übereinstimmung ist nützlich für kurze, präzise Antworten wie Zahlen, Codes oder feste Ausdrücke. Es passt nicht zu Antworten, die Personen auf mehrere richtige Weise ausdrücken können.

Beim Hinzufügen oder Bearbeiten von Testmethoden wählen Sie Exakte Übereinstimmung.
Füge die erwarteten Antworten hinzu. Jeder Testfall ohne erwartete Antworten erzeugt ein ungültiges Ergebnis für diese Testmethode.
1. Wählen Sie einen Testfall aus.
2. Füge die Antwort hinzu, die du erwartest.
3. Wählen Sie Anwenden, um die erwartete Antwort zu speichern.
4. Wiederhole das für alle Testfälle, die du mit dieser Methode testen möchtest.

Benutzerdefiniert

Benutzerdefiniert ist eine anpassbare Testmethode. Auf diese Weise können Sie Agent-Antworten anhand Ihrer eigenen Kriterien testen und bezeichnen. Sie können z. B. einen Compliancetest für einen HR-Agent erstellen, um Testantworten entweder als konform oder nicht konform mit Ihrer Beschreibung der Personalcompliance zu bezeichnen.

Ein benutzerdefinierter Test verfügt über zwei Komponenten, die Sie konfigurieren können:

Auswertungsanweisungen: Beschreibt das Ziel, das Sie mit diesem Test erreichen möchten. Was soll der Test über die Antworten Ihres Agenten erfahren?

Gute Anweisungen zur Bewertung sollten:

Zielorientiert sein.
Verwenden Sie nur die zulässigen Zeichen.
Verwenden Sie Aufzählungszeichen und Überschriften für die Organisation.

Beispiel:

Evaluate the agent's response for HR policy compliance.

What to check:
- Determine whether the answer protects privacy and avoids revealing or requesting sensitive data.
- Avoids discrimination, bias, or inappropriate judgments.
- Provides safe, neutral, HR-aligned guidance.
- Does not give legal advice or make definitive claims.

Bezeichnungen: Beschreibt das Ergebnis, das jeder Antwort mithilfe des benutzerdefinierten Tests zugewiesen wurde. Labels verfügen auch über Pass-/Fail-Zuordnungen, die zur Durchlaufrate des Testsatzes für diese Testmethode zählen.

Etiketten haben einen Namen und eine Beschreibung. Eine gute Beschreibung:

Ist prägnant.
Enthält die Attribute, die Sie in übereinstimmenden Antworten suchen.

Eine Strategie für Bezeichnungen besteht darin, zwei zu haben: eine für Antworten, die die Kriterien, die Sie suchen, erfolgreich erfüllen, und die andere für Antworten, die dies nicht tun. Ein benutzerdefinierter Test für die Personalrichtliniencompliance kann z. B. " Konform " und "Nicht konform " als Bezeichnungen aufweisen.

Wenn Sie Testmethoden hinzufügen oder bearbeiten, wählen Sie "Benutzerdefiniert" aus.
Geben Sie einen Namen für diesen benutzerdefinierten Test ein.
Fügen Sie Auswertungsanweisungen hinzu.
Fügen Sie zwei oder mehr Bezeichnungen hinzu. Jedes Label hat einen Namen und eine Beschreibung.

Wenn Sie weitere Bezeichnungen hinzufügen möchten, wählen Sie "Bezeichnung hinzufügen" aus.

Bezeichnungstitel können nur Buchstaben, Zahlen, Leerzeichen, Bindestriche -, Unterstrich _, Schrägstrich /, kaufmännisches Und-Zeichen &, Pluszeichen + und Punkt . verwenden.
Legen Sie das Pass- oder Fail-Ergebnis für jedes Label fest.
Wählen Sie OK aus.

Feedback

War diese Seite hilfreich?

Last updated on 2026-03-05