Del via


Velg evalueringsmetoder

[Denne artikkelen inneholder dokumentasjon for forhåndsversjonen og kan bli endret.]

Når du lager testsett, velg mellom ulike testmetoder for å evaluere agentens svar. Hver testmetode har sine egne styrker og passer til ulike typer evalueringer.

Testmetode Tiltak Poengberegning Konfigurasjoner
Generell kvalitet Hvor godt er testtilfellets svar basert på spesifikke kvaliteter Fikk poeng av 100% Ingen
Sammenlign betydning Hvor godt betydningen av testtilfellets svar stemmer overens med det forventede svaret Fikk poeng av 100% Bestått, forventet svar
Bruk av verktøy Om testtilfellet brukte de forventede ressursene Bestått/ikke bestått. Forventede kapasiteter
Nøkkelordmatch Om testtilfellet brukte alle eller noen av de forventede nøkkelordene eller frasene Bestått/ikke bestått. Forventede nøkkelord eller fraser
Tekstlikhet Hvor godt teksten i testtilfellets svar stemmer overens med det forventede svaret Fikk poeng av 100% Bestått, forventet svar
Eksakt samsvar Om testtilfellets svar samsvarer nøyaktig med det forventede svaret Bestått/ikke bestått. Forventet svar
Egendefinert Etiketter svarer basert på kriteriene du beskriver Bestått/ikke bestått. Testbeskrivelse og etikettbeskrivelser

Legge til en testmetode

  1. Når du oppretter eller redigerer et testsett, velg Legg til testmetode.

  2. Velg alle metodene du vil teste med, og velg deretter OK. Du kan legge til flere metoder.

    1. Noen metoder krever bestått. Beståttresultatet avgjør hvilken poengsum som resulterer i bestått, eller stryk. Sett poengsummen, og velg OK.

    2. Noen testmetoder krever flere kriterier.

  3. Velg Lagre for å lagre endringene dine i testsettet.

Velg en eksisterende testmetode for å redigere kriteriene for den metoden, eller slett den metoden.

Generell kvalitet

Generell kvalitet hjelper deg å avgjøre om agentens svar oppfyller dine standarder. Den bruker en språkmodell for å vurdere hvor effektivt en agent svarer på brukerspørsmål.

Generell kvalitet er spesielt nyttig når det ikke forventes noe eksakt svar. Det tilbyr en fleksibel og skalerbar måte å evaluere svar basert på de hentede dokumentene og samtaleflyten.

Den bruker disse nøkkelkriteriene og bruker en konsekvent prompt for å styre poenggivningen:

  • Relevans: I hvilken grad agentens svar tar for seg spørsmålet. For eksempel forblir agentens svar på emnet og svarer direkte på spørsmålet?

  • Grunnfesting: I hvilken grad agentens svar er basert på den angitte konteksten. Henviser for eksempel agentens svar til eller er avhengig av informasjonen som er gitt i konteksten, i stedet for å innføre urelatert eller ustøttet informasjon?

  • Fullstendighet: I hvilken grad agentens svar gir all nødvendig informasjon. Dekker agentens svar for eksempel alle aspekter av spørsmålet og gir tilstrekkelige detaljer?

  • Avholdenhet: Om agenten forsøkte å svare på spørsmålet.

For å regnes som høy kvalitet må et svar oppfylle alle disse nøkkelkriteriene. Hvis ett kriterium ikke er oppfylt, blir responsen flagget for forbedring. Denne poengsummetoden sikrer at bare svar som er både fullstendige og godt støttet, får toppkarakterer. Svar som er ufullstendige eller mangler støttebevis, får derimot lavere poengsummer.

Når du legger til eller redigerer testmetoder, velg Generell kvalitet. Alle testsett starter med denne metoden som standard.

Du trenger ikke å legge til forventede svar i testtilfeller for å fullføre en generell kvalitetsvurdering.

Sammenlign betydning

Sammenligning av mening evaluerer hvor godt agentens svar gjenspeiler den tiltenkte betydningen av det forventede svaret. I stedet for å fokusere på nøyaktig formulering, bruker den intensjonslikhet, altså at den sammenligner ideene og meningen bak ordene for å vurdere hvor nært svaret samsvarer med det du forventet.

Akkurat som generell kvalitet er sammenligningsmening spesielt nyttig når det ikke finnes noe eksakt svar som forventes. Det tilbyr en fleksibel og skalerbar måte å evaluere svar basert på de hentede dokumentene og samtaleflyten.

Du kan angi en terskel for bestått poengsum for å avgjøre hva som utgjør en bestått poengsum for et svar. Standard bestått poengsummen er 50. Testmetoden for sammenligning av mening er nyttig når et svar kan uttrykkes på forskjellige riktige måter, men den generelle betydningen eller intensjonen må fortsatt komme gjennom.

  1. Når du legger til eller redigerer testmetoder, velg Sammenlign betydning.

  2. Sett bestått poengsum for denne metoden.

  3. Legg til de forventede svarene. Ethvert testtilfelle uten forventede svar gir et ugyldig resultat for denne testmetoden.

    1. Velg et testtilfelle.

    2. Legg til svaret du forventer.

    3. Velg Bruk for å lagre det forventede svaret.

    4. Gjenta for alle testtilfellene du ønsker å teste ved å bruke denne metoden.

Bruk av verktøy

Verktøybruk tester om agenten utløste bestemte verktøy eller emner under kjøringsprosessen. Hvis det gjorde det, er resultatet merket som Pass. Hvis det ikke gjorde det, er resultatet merket som Mislykket.

  1. Når du legger til eller redigerer testmetoder, velger du Verktøybruk.

  2. Legg til de forventede verktøyene eller temaene. Ethvert testtilfelle uten forventede svar gir et ugyldig resultat for denne testmetoden.

    1. Velg et testtilfelle. Hvis du vil legge til de samme forventede verktøyene og emnene for alle testtilfeller, velger du Rediger-ikonet i kolonneoverskriften Verktøybruk .

    2. Velg verktøyene du forventer at agenten skal bruke for testtilfellet, i ruten Rediger testtilfelle .

    3. Velg OK.

    4. Velg Bruk for å lagre endringer.

    5. Gjenta for alle testtilfellene du vil teste for verktøybruk.

Nøkkelordmatch

Nøkkelordsvar kontrollerer om agentens svar inneholder noen eller alle ordene eller uttrykkene fra det forventede svaret du definerer. Hvis den gjør den, består den. Hvis den ikke gjør det, mislykkes den. Nøkkelordmatch er nyttig når et svar kan formuleres på forskjellige riktige måter, men nøkkelbegreper eller ideer må fortsatt inkluderes i svaret.

Du kan velge om et pass krever noen av nøkkelordene eller alle sammen. Å velge Any betyr at hvis minst ett ord eller uttrykk stemmer, består testcaset. Å velge Alle betyr at alle forventede ord eller uttrykk må matche for at et testtilfelle skal bestå.

  1. Når du legger til eller redigerer testmetoder, velg Nøkkelordmatch.

  2. Velg om et testtilfelle trenger at noen eller alle nøkkelord skal matche.

  3. Legg til de forventede nøkkelordene. Ethvert testtilfelle uten forventede nøkkelord gir et ugyldig resultat for denne testmetoden.

    1. Velg et testtilfelle.

    2. Legg til et nøkkelord eller uttrykk du forventer at svaret på denne saken skal ha, i ruten Rediger testtilfelle .

    3. Velg + Legg til for å legge til flere nøkkelord eller uttrykk. Hvis du vil fjerne et nøkkelord eller uttrykk, velger du Slett-ikonet .

    4. Velg Bruk for å lagre de forventede nøkkelordene.

    5. Gjenta for alle testtilfellene du vil teste for nøkkelordmatching.

Tekstlikhet

Likhetstestmetoden sammenligner likheten mellom agentens svar og de forventede svarene du definerer i testsettet ditt. Det er nyttig når et svar kan uttrykkes på forskjellige riktige måter, men den generelle betydningen eller intensjonen må fortsatt komme gjennom.

Den bruker en cosinus likhetsmetrikk for å vurdere hvor lik agentens svar er til ordlyden og betydningen av det forventede svaret og bestemmer en poengsum. Poengsummen varierer mellom 0 og 1, der 1 angir at svaret samsvarer tett, og 0 indikerer at det ikke gjør det. Du kan angi en terskel for bestått poengsum for å avgjøre hva som utgjør en bestått poengsum for et svar.

  1. Når du legger til eller redigerer testmetoder, velg tekstlikhet.

  2. Sett bestått poengsum for denne metoden.

  3. Legg til de forventede svarene. Ethvert testtilfelle uten forventede svar gir et ugyldig resultat for denne testmetoden.

    1. Velg et testtilfelle.

    2. Legg til svaret du forventer.

    3. Velg Bruk for å lagre det forventede svaret.

    4. Gjenta for alle testtilfellene du ønsker å teste ved å bruke denne metoden.

Eksakt samsvar

Nøyaktig samsvar kontrollerer om agentens svar samsvarer nøyaktig med det forventede svaret i testen: tegn for tegn, ord for ord. Hvis det er det samme, godkjennes det. Hvis noe er annerledes, mislykkes det. Nøyaktig treff er nyttig for korte, presise svar, for eksempel tall, koder eller faste uttrykk. Det passer ikke til svar som personer kan uttrykke på flere riktige måter.

  1. Når du legger til eller redigerer testmetoder, velg Eksakt match.

  2. Legg til de forventede svarene. Ethvert testtilfelle uten forventede svar gir et ugyldig resultat for denne testmetoden.

    1. Velg et testtilfelle.

    2. Legg til svaret du forventer.

    3. Velg Bruk for å lagre det forventede svaret.

    4. Gjenta for alle testtilfellene du ønsker å teste ved å bruke denne metoden.

Egendefinert

Egendefinert er en testmetode som kan tilpasses. Den lar deg teste og merke agentsvar ved hjelp av dine egne kriterier. Du kan for eksempel opprette en samsvarstest for en HR-agent for å merke testsvar som enten kompatible eller ikke kompatible med din beskrivelse av HR-samsvar.

En egendefinert test har to komponenter du kan konfigurere:

Evalueringsinstruksjoner: Beskriver målet du vil utføre med denne testen. Hva vil du at testen skal finne ut om agentens svar?

Gode evalueringsinstruksjoner bør:

  • Vær målorientert.

  • Bruk bare de tillatte tegnene.

  • Bruk punktpunkter og overskrifter for organisasjonen.

Eksempel:

Evaluate the agent's response for HR policy compliance.

What to check:
- Determine whether the answer protects privacy and avoids revealing or requesting sensitive data.
- Avoids discrimination, bias, or inappropriate judgments.
- Provides safe, neutral, HR-aligned guidance.
- Does not give legal advice or make definitive claims.

Etiketter: Beskriver resultatet som er tilordnet hvert svar ved hjelp av den egendefinerte testen. Etiketter har også bestått/ikke bestått vurderinger, som teller mot bestått-raten for denne testmetoden.

Etiketter har et navn og en beskrivelse. En god beskrivelse:

  • Er kortfattet.

  • Inneholder attributtene du leter etter i samsvarende svar.

En strategi for etiketter er å ha to: ett er svar som oppfyller kriteriene du leter etter, og den andre for svar som ikke gjør det. En egendefinert test for samsvarssamsvar for HR-policyer kan for eksempel ha samsvarende og ikke-kompatible som etiketter.

  1. Når du legger til eller redigerer testmetoder, velger du Egendefinert.

  2. Skriv inn et navn for denne egendefinerte testen.

  3. Legg til evalueringsinstruksjoner.

  4. Legg til to eller flere etiketter. Hver etikett har et navn og en beskrivelse.

    Hvis du vil legge til flere etiketter, velger du Legg til etikett.

    Etiketttitler kan bare bruke bokstaver, tall, mellomrom, bindestrek -, understrekingstegn _, skråstrek /, ampersand &, plusstegn +og punktum ..

  5. Angi resultatet Pass eller Fail for hver etikett.

  6. Velg OK.