Delen via


Kies evaluatiemethoden

[Dit artikel maakt deel uit van de voorlopige documentatie en kan nog veranderen.]

Kies bij het maken van testsets uit verschillende testmethoden om de antwoorden van je agent te evalueren. Elke testmethode heeft zijn eigen sterke punten en past bij verschillende soorten evaluaties.

Testmethode Maatregelen Scoren Configurations
Algemene kwaliteit Hoe goed is het antwoord van een testgeval op basis van specifieke kwaliteiten Gescoord uit 100% Geen
Betekenis vergelijken Hoe goed de betekenis van het testgeval overeenkomt met het verwachte antwoord Gescoord uit 100% Beoordelingsscore, verwachte antwoord
Gebruik van hulpprogramma's Of de testcase de verwachte middelen gebruikte Geslaagd/onvoldoende Verwachte capaciteiten
Trefwoordmatch Of de testcase alle of een van de verwachte zoekwoorden of zinnen gebruikte Geslaagd/onvoldoende Verwachte trefwoorden of zinnen
Gelijkenis van tekst Hoe goed de tekst van het antwoord van het testgeval overeenkomt met het verwachte antwoord Gescoord uit 100% Beoordelingsscore, verwachte antwoord
Exacte overeenkomst Of het antwoord van het testgeval exact overeenkomt met het verwachte antwoord Geslaagd/onvoldoende Verwacht antwoord
Aangepast Antwoorden labelen op basis van de criteria die u beschrijft Geslaagd/onvoldoende Beschrijving van tests en labelbeschrijvingen

Een testmethode toevoegen

  1. Selecteer bij het aanmaken of bewerken van een testset de Testmethode toevoegen.

  2. Selecteer alle methoden waarmee je wilt testen en selecteer dan OK. Je kunt meerdere methoden toevoegen.

    1. Sommige methoden vereisen een slagscore. De slagscore bepaalt welke score resulteert in een geslaagd of een mislukking. Stel de score in en kies dan OK.

    2. Voor sommige testmethoden zijn meer criteria vereist.

  3. Selecteer Save om je wijzigingen in de testset op te slaan.

Selecteer een bestaande testmethode om de criteria van die methode te bewerken of verwijder die methode.

Algemene kwaliteit

Algemene kwaliteit helpt u beslissen of de antwoorden van uw makelaar aan uw normen voldoen. Het gebruikt een taalmodel om te beoordelen hoe effectief een agent gebruikersvragen beantwoordt.

Algemene kwaliteit is vooral nuttig als er geen exact antwoord wordt verwacht. Het biedt een flexibele en schaalbare manier om antwoorden te evalueren op basis van de opgehaalde documenten en de gespreksflow.

Het maakt gebruik van deze belangrijke criteria en past een consistente aanwijzing toe om de beoordeling te begeleiden.

  • Relevantie: In hoeverre de respons van de agent de vraag beantwoordt. Blijft het antwoord van de agent bijvoorbeeld bij het onderwerp en beantwoordt het de vraag rechtstreeks?

  • Onderbouwdheid: in hoeverre de respons van de agent is gebaseerd op de opgegeven context. Is de responsverwijzing van de agent bijvoorbeeld afhankelijk van de informatie die in de context wordt gegeven, in plaats van niet-gerelateerde of niet-ondersteunde informatie in te voeren?

  • Volledigheid: In hoeverre de respons van de agent alle benodigde informatie bevat. Heeft de respons van de agent bijvoorbeeld betrekking op alle aspecten van de vraag en geeft het u voldoende details?

  • Onthouding: Of de agent de vraag probeerde te beantwoorden.

Om van hoge kwaliteit te worden beschouwd, moet een antwoord aan al deze belangrijke criteria voldoen. Als aan één criterium niet wordt voldaan, wordt de reactie gemarkeerd voor verbetering. Deze scoremethode zorgt ervoor dat alleen responsen die volledig en goed worden ondersteund, topmarkeringen ontvangen. Antwoorden die onvolledig zijn of geen ondersteunend bewijs hebben, krijgen daarentegen lagere scores.

Bij het toevoegen of bewerken van testmethoden, selecteer Algemene kwaliteit. Alle testsets beginnen standaard met deze methode.

Je hoeft geen verwachte antwoorden toe te voegen aan testgevallen om een algemene kwaliteitsbeoordeling te voltooien.

Betekenis vergelijken

Vergelijk betekenis evalueert hoe goed de respons van de agent de beoogde betekenis van het verwachte respons weerspiegelt. In plaats van zich te richten op exacte formuleringen, gebruikt het intentie-overeenkomst, wat betekent dat het de ideeën en betekenis achter de woorden vergelijkt om te beoordelen hoe goed het antwoord overeenkomt met wat je verwachtte.

Net als algemene kwaliteit is het vergelijken van betekenissen vooral nuttig wanneer er geen exact antwoord wordt verwacht. Het biedt een flexibele en schaalbare manier om antwoorden te evalueren op basis van de opgehaalde documenten en de gespreksflow.

U kunt een drempelwaarde voor een geslaagde score instellen om te bepalen wat een geslaagde score voor een respons is. De standaard slagingsscore is 50. De testmethode voor het vergelijken van de betekenis is handig wanneer een respons op verschillende manieren kan worden geformuleerd, maar de algehele betekenis of intentie moet nog steeds kloppen.

  1. Bij het toevoegen of bewerken van testmethoden, selecteer dan Betekenis vergelijken.

  2. Stel de slagscore voor deze methode in.

  3. Voeg de verwachte antwoorden toe. Elke testcase zonder verwachte antwoorden produceert een ongeldig resultaat voor deze testmethode.

    1. Kies een testcase.

    2. Voeg het antwoord toe dat je verwacht.

    3. Selecteer Toepassen om het verwachte antwoord op te slaan.

    4. Herhaal dit voor alle testgevallen die je wilt testen met deze methode.

Gebruik van hulpprogramma's

Gereedschapsgebruik test of de agent specifieke hulpmiddelen of onderwerpen heeft geactiveerd tijdens het uitvoeringsproces. Als dat zo is, wordt het resultaat gemarkeerd als Pass. Als dit niet het resultaat is, wordt het resultaat gemarkeerd als Mislukt.

  1. Wanneer u testmethoden toevoegt of bewerkt, selecteert u Toolgebruik.

  2. Voeg de verwachte hulpmiddelen of onderwerpen toe. Elke testcase zonder verwachte antwoorden produceert een ongeldig resultaat voor deze testmethode.

    1. Kies een testcase. Als u dezelfde verwachte hulpprogramma's en onderwerpen wilt toevoegen voor alle testcases, selecteert u het pictogram Bewerken in de kolomkop Tool.

    2. Selecteer in het deelvenster Testcase bewerken de hulpprogramma's die uw agent voor die testcase moet gebruiken.

    3. Kies OK.

    4. Selecteer Toepassen om wijzigingen op te slaan.

    5. Herhaal dit voor alle testcases die u wilt testen voor gebruik van hulpprogramma's.

Trefwoordmatch

Trefwoordmatch controleert of het antwoord van de agent enkele of alle woorden of woordgroepen bevat uit het verwachte antwoord dat u definieert. Als dat het geval is, wordt het doorgegeven. Als het dat niet doet, faalt het. Keyword match is nuttig wanneer een antwoord op verschillende correcte manieren kan worden geformuleerd, maar sleuteltermen of ideeën toch in het antwoord moeten worden opgenomen.

Je kunt selecteren of een pass een van de trefwoorden vereist of allemaal . Het kiezen van Any betekent dat als ten minste één woord of uitdrukking overeenkomt, het testgeval slaagt. Kiezen voor Alle, betekent dat alle verwachte woorden of zinnen overeenstemmen moeten om een testgeval te laten slagen.

  1. Selecteer bij het toevoegen of bewerken van testmethodenTrefwoordmatch.

  2. Selecteer of een testgeval Any of All trefwoorden nodig heeft om te matchen.

  3. Voeg de verwachte trefwoorden toe. Elke testcase zonder verwachte trefwoorden produceert een ongeldig resultaat voor deze testmethode.

    1. Kies een testcase.

    2. Voeg in het deelvenster Testcase bewerken een trefwoord of woordgroep toe die u verwacht in het antwoord op die testcase zal voorkomen.

    3. Selecteer + Toevoegen om meer trefwoorden of woordgroepen toe te voegen. Als u een trefwoord of woordgroep wilt verwijderen, selecteert u het pictogram Verwijderen .

    4. Selecteer Toepassen om de verwachte zoekwoorden op te slaan.

    5. Herhaal dit voor alle testgevallen die je wilt testen op trefwoordmatching.

Gelijkenis van tekst

De gelijkenistestmethode vergelijkt de gelijkenis van de antwoorden van de agent met de verwachte antwoorden die je definieert in je testset. Het is handig wanneer een respons op verschillende manieren kan worden geformuleerd, maar de algehele betekenis of intentie moet nog steeds kloppen.

Er wordt een cosinus-similariteitsmetrie gebruikt om te beoordelen hoe vergelijkbaar het antwoord van de agent is met de formulering en betekenis van het verwachte antwoord en een score te bepalen. De scorebereiken tussen 0 en 1, waarbij 1 aangeeft dat de respons nauwkeurig overeenkomt en 0 geeft aan dat dit niet zo is. U kunt een drempelwaarde voor een geslaagde score instellen om te bepalen wat een geslaagde score voor een respons is.

  1. Bij het toevoegen of bewerken van testmethoden, selecteer Tekstgelijkenis.

  2. Stel de slagscore voor deze methode in.

  3. Voeg de verwachte antwoorden toe. Elke testcase zonder verwachte antwoorden produceert een ongeldig resultaat voor deze testmethode.

    1. Kies een testcase.

    2. Voeg het antwoord toe dat je verwacht.

    3. Selecteer Toepassen om het verwachte antwoord op te slaan.

    4. Herhaal dit voor alle testgevallen die je wilt testen met deze methode.

Exacte overeenkomst

Exacte overeenkomst controleert of het antwoord van de agent exact overeenkomt met het verwachte antwoord in de test: teken voor teken, woord voor woord. Als het hetzelfde is, wordt het goedgekeurd. Als er iets anders is, mislukt het. Exacte overeenkomst is handig voor korte, nauwkeurige responsen, zoals getallen, codes of vaste woordgroepen. Het is niet geschikt voor responsen die mensen op meerdere juiste manieren kunnen formuleren.

  1. Bij het toevoegen of bewerken van testmethoden, selecteer Exacte overeenkomst.

  2. Voeg de verwachte antwoorden toe. Elke testcase zonder verwachte antwoorden produceert een ongeldig resultaat voor deze testmethode.

    1. Kies een testcase.

    2. Voeg het antwoord toe dat je verwacht.

    3. Selecteer Toepassen om het verwachte antwoord op te slaan.

    4. Herhaal dit voor alle testgevallen die je wilt testen met deze methode.

Aangepast

Aangepast is een aanpasbare testmethode. Hiermee kunt u antwoorden van agents testen en labelen met behulp van uw eigen criteria. U kunt bijvoorbeeld een nalevingstest voor een HR-agent maken om antwoorden te labelen als compatibel of niet-compatibel met uw beschrijving van HR-naleving.

Een aangepaste test heeft twee onderdelen die u kunt configureren:

Evaluatie-instructies: Beschrijft het doel dat u met deze test wilt bereiken. Wat wilt u dat de test meer weet over de antwoorden van uw agent?

Goede evaluatie-instructies moeten:

  • Wees doelgericht.

  • Gebruik alleen de toegestane tekens.

  • Gebruik opsommingstekens en koppen voor een betere indeling.

Voorbeeld:

Evaluate the agent's response for HR policy compliance.

What to check:
- Determine whether the answer protects privacy and avoids revealing or requesting sensitive data.
- Avoids discrimination, bias, or inappropriate judgments.
- Provides safe, neutral, HR-aligned guidance.
- Does not give legal advice or make definitive claims.

Labels: Beschrijft het resultaat dat aan elk antwoord is toegewezen met behulp van de aangepaste test. Labels hebben ook slagings-/mislukkings-toewijzingen, die meetellen voor het slagingspercentage van de testset voor deze testmethode.

Labels hebben een naam en een beschrijving. Een goede beschrijving:

  • Is beknopt.

  • Bevat de kenmerken die u zoekt in overeenkomende antwoorden.

Een strategie voor labels is om er twee te hebben: één voor antwoorden die voldoen aan de criteria die u zoekt, en een andere voor antwoorden die dat niet doen. Een aangepaste test voor naleving van HR-beleid kan bijvoorbeeld Voldoet en Niet-voldoet als labels hebben.

  1. Wanneer u testmethoden toevoegt of bewerkt, selecteert u Aangepast.

  2. Voer een naam in voor deze aangepaste test.

  3. Voeg evaluatie-instructies toe.

  4. Voeg twee of meer labels toe. Elk label heeft een naam en een beschrijving.

    Als u meer labels wilt toevoegen, selecteert u Label toevoegen.

    Labeltitels kunnen alleen letters, cijfers, spatie, afbreekstreepje -, onderstrepingsteken _, slash /, ampersand &, plusteken + en punt . gebruiken.

  5. Stel het resultaat Geslaagd of Mislukt voor elk label in.

  6. Kies OK.