Merk
Tilgang til denne siden krever autorisasjon. Du kan prøve å logge på eller endre kataloger.
Tilgang til denne siden krever autorisasjon. Du kan prøve å endre kataloger.
[Denne artikkelen inneholder dokumentasjon for forhåndsversjonen og kan bli endret.]
Når du lager testsett, velg mellom ulike testmetoder for å evaluere agentens svar. Hver testmetode har sine egne styrker og passer til ulike typer evalueringer.
| Testmetode | Tiltak | Poengberegning | Konfigurasjoner |
|---|---|---|---|
| Generell kvalitet | Hvor godt er testtilfellets svar basert på spesifikke kvaliteter | Fikk poeng av 100% | Ingen |
| Sammenlign betydning | Hvor godt betydningen av testtilfellets svar stemmer overens med det forventede svaret | Fikk poeng av 100% | Bestått, forventet svar |
| Bruk av verktøy | Om testtilfellet brukte de forventede ressursene | Bestått/ikke bestått. | Forventede kapasiteter |
| Nøkkelordmatch | Om testtilfellet brukte alle eller noen av de forventede nøkkelordene eller frasene | Bestått/ikke bestått. | Forventede nøkkelord eller fraser |
| Tekstlikhet | Hvor godt teksten i testtilfellets svar stemmer overens med det forventede svaret | Fikk poeng av 100% | Bestått, forventet svar |
| Eksakt samsvar | Om testtilfellets svar samsvarer nøyaktig med det forventede svaret | Bestått/ikke bestått. | Forventet svar |
| Egendefinert | Etiketter svarer basert på kriteriene du beskriver | Bestått/ikke bestått. | Testbeskrivelse og etikettbeskrivelser |
Legge til en testmetode
Når du oppretter eller redigerer et testsett, velg Legg til testmetode.
Velg alle metodene du vil teste med, og velg deretter OK. Du kan legge til flere metoder.
Noen metoder krever bestått. Beståttresultatet avgjør hvilken poengsum som resulterer i bestått, eller stryk. Sett poengsummen, og velg OK.
Noen testmetoder krever flere kriterier.
Velg Lagre for å lagre endringene dine i testsettet.
Velg en eksisterende testmetode for å redigere kriteriene for den metoden, eller slett den metoden.
Generell kvalitet
Generell kvalitet hjelper deg å avgjøre om agentens svar oppfyller dine standarder. Den bruker en språkmodell for å vurdere hvor effektivt en agent svarer på brukerspørsmål.
Generell kvalitet er spesielt nyttig når det ikke forventes noe eksakt svar. Det tilbyr en fleksibel og skalerbar måte å evaluere svar basert på de hentede dokumentene og samtaleflyten.
Den bruker disse nøkkelkriteriene og bruker en konsekvent prompt for å styre poenggivningen:
Relevans: I hvilken grad agentens svar tar for seg spørsmålet. For eksempel forblir agentens svar på emnet og svarer direkte på spørsmålet?
Grunnfesting: I hvilken grad agentens svar er basert på den angitte konteksten. Henviser for eksempel agentens svar til eller er avhengig av informasjonen som er gitt i konteksten, i stedet for å innføre urelatert eller ustøttet informasjon?
Fullstendighet: I hvilken grad agentens svar gir all nødvendig informasjon. Dekker agentens svar for eksempel alle aspekter av spørsmålet og gir tilstrekkelige detaljer?
Avholdenhet: Om agenten forsøkte å svare på spørsmålet.
For å regnes som høy kvalitet må et svar oppfylle alle disse nøkkelkriteriene. Hvis ett kriterium ikke er oppfylt, blir responsen flagget for forbedring. Denne poengsummetoden sikrer at bare svar som er både fullstendige og godt støttet, får toppkarakterer. Svar som er ufullstendige eller mangler støttebevis, får derimot lavere poengsummer.
Når du legger til eller redigerer testmetoder, velg Generell kvalitet. Alle testsett starter med denne metoden som standard.
Du trenger ikke å legge til forventede svar i testtilfeller for å fullføre en generell kvalitetsvurdering.
Sammenlign betydning
Sammenligning av mening evaluerer hvor godt agentens svar gjenspeiler den tiltenkte betydningen av det forventede svaret. I stedet for å fokusere på nøyaktig formulering, bruker den intensjonslikhet, altså at den sammenligner ideene og meningen bak ordene for å vurdere hvor nært svaret samsvarer med det du forventet.
Akkurat som generell kvalitet er sammenligningsmening spesielt nyttig når det ikke finnes noe eksakt svar som forventes. Det tilbyr en fleksibel og skalerbar måte å evaluere svar basert på de hentede dokumentene og samtaleflyten.
Du kan angi en terskel for bestått poengsum for å avgjøre hva som utgjør en bestått poengsum for et svar. Standard bestått poengsummen er 50. Testmetoden for sammenligning av mening er nyttig når et svar kan uttrykkes på forskjellige riktige måter, men den generelle betydningen eller intensjonen må fortsatt komme gjennom.
Når du legger til eller redigerer testmetoder, velg Sammenlign betydning.
Sett bestått poengsum for denne metoden.
Legg til de forventede svarene. Ethvert testtilfelle uten forventede svar gir et ugyldig resultat for denne testmetoden.
Velg et testtilfelle.
Legg til svaret du forventer.
Velg Bruk for å lagre det forventede svaret.
Gjenta for alle testtilfellene du ønsker å teste ved å bruke denne metoden.
Bruk av verktøy
Verktøybruk tester om agenten utløste bestemte verktøy eller emner under kjøringsprosessen. Hvis det gjorde det, er resultatet merket som Pass. Hvis det ikke gjorde det, er resultatet merket som Mislykket.
Når du legger til eller redigerer testmetoder, velger du Verktøybruk.
Legg til de forventede verktøyene eller temaene. Ethvert testtilfelle uten forventede svar gir et ugyldig resultat for denne testmetoden.
Velg et testtilfelle. Hvis du vil legge til de samme forventede verktøyene og emnene for alle testtilfeller, velger du Rediger-ikonet
i kolonneoverskriften Verktøybruk .Velg verktøyene du forventer at agenten skal bruke for testtilfellet, i ruten Rediger testtilfelle .
Velg OK.
Velg Bruk for å lagre endringer.
Gjenta for alle testtilfellene du vil teste for verktøybruk.
Nøkkelordmatch
Nøkkelordsvar kontrollerer om agentens svar inneholder noen eller alle ordene eller uttrykkene fra det forventede svaret du definerer. Hvis den gjør den, består den. Hvis den ikke gjør det, mislykkes den. Nøkkelordmatch er nyttig når et svar kan formuleres på forskjellige riktige måter, men nøkkelbegreper eller ideer må fortsatt inkluderes i svaret.
Du kan velge om et pass krever noen av nøkkelordene eller alle sammen. Å velge Any betyr at hvis minst ett ord eller uttrykk stemmer, består testcaset. Å velge Alle betyr at alle forventede ord eller uttrykk må matche for at et testtilfelle skal bestå.
Når du legger til eller redigerer testmetoder, velg Nøkkelordmatch.
Velg om et testtilfelle trenger at noen eller alle nøkkelord skal matche.
Legg til de forventede nøkkelordene. Ethvert testtilfelle uten forventede nøkkelord gir et ugyldig resultat for denne testmetoden.
Velg et testtilfelle.
Legg til et nøkkelord eller uttrykk du forventer at svaret på denne saken skal ha, i ruten Rediger testtilfelle .
Velg + Legg til for å legge til flere nøkkelord eller uttrykk. Hvis du vil fjerne et nøkkelord eller uttrykk, velger du Slett-ikonet
.Velg Bruk for å lagre de forventede nøkkelordene.
Gjenta for alle testtilfellene du vil teste for nøkkelordmatching.
Tekstlikhet
Likhetstestmetoden sammenligner likheten mellom agentens svar og de forventede svarene du definerer i testsettet ditt. Det er nyttig når et svar kan uttrykkes på forskjellige riktige måter, men den generelle betydningen eller intensjonen må fortsatt komme gjennom.
Den bruker en cosinus likhetsmetrikk for å vurdere hvor lik agentens svar er til ordlyden og betydningen av det forventede svaret og bestemmer en poengsum. Poengsummen varierer mellom 0 og 1, der 1 angir at svaret samsvarer tett, og 0 indikerer at det ikke gjør det. Du kan angi en terskel for bestått poengsum for å avgjøre hva som utgjør en bestått poengsum for et svar.
Når du legger til eller redigerer testmetoder, velg tekstlikhet.
Sett bestått poengsum for denne metoden.
Legg til de forventede svarene. Ethvert testtilfelle uten forventede svar gir et ugyldig resultat for denne testmetoden.
Velg et testtilfelle.
Legg til svaret du forventer.
Velg Bruk for å lagre det forventede svaret.
Gjenta for alle testtilfellene du ønsker å teste ved å bruke denne metoden.
Eksakt samsvar
Nøyaktig samsvar kontrollerer om agentens svar samsvarer nøyaktig med det forventede svaret i testen: tegn for tegn, ord for ord. Hvis det er det samme, godkjennes det. Hvis noe er annerledes, mislykkes det. Nøyaktig treff er nyttig for korte, presise svar, for eksempel tall, koder eller faste uttrykk. Det passer ikke til svar som personer kan uttrykke på flere riktige måter.
Når du legger til eller redigerer testmetoder, velg Eksakt match.
Legg til de forventede svarene. Ethvert testtilfelle uten forventede svar gir et ugyldig resultat for denne testmetoden.
Velg et testtilfelle.
Legg til svaret du forventer.
Velg Bruk for å lagre det forventede svaret.
Gjenta for alle testtilfellene du ønsker å teste ved å bruke denne metoden.
Egendefinert
Egendefinert er en testmetode som kan tilpasses. Den lar deg teste og merke agentsvar ved hjelp av dine egne kriterier. Du kan for eksempel opprette en samsvarstest for en HR-agent for å merke testsvar som enten kompatible eller ikke kompatible med din beskrivelse av HR-samsvar.
En egendefinert test har to komponenter du kan konfigurere:
Evalueringsinstruksjoner: Beskriver målet du vil utføre med denne testen. Hva vil du at testen skal finne ut om agentens svar?
Gode evalueringsinstruksjoner bør:
Vær målorientert.
Bruk bare de tillatte tegnene.
Bruk punktpunkter og overskrifter for organisasjonen.
Eksempel:
Evaluate the agent's response for HR policy compliance.
What to check:
- Determine whether the answer protects privacy and avoids revealing or requesting sensitive data.
- Avoids discrimination, bias, or inappropriate judgments.
- Provides safe, neutral, HR-aligned guidance.
- Does not give legal advice or make definitive claims.
Etiketter: Beskriver resultatet som er tilordnet hvert svar ved hjelp av den egendefinerte testen. Etiketter har også bestått/ikke bestått vurderinger, som teller mot bestått-raten for denne testmetoden.
Etiketter har et navn og en beskrivelse. En god beskrivelse:
Er kortfattet.
Inneholder attributtene du leter etter i samsvarende svar.
En strategi for etiketter er å ha to: ett er svar som oppfyller kriteriene du leter etter, og den andre for svar som ikke gjør det. En egendefinert test for samsvarssamsvar for HR-policyer kan for eksempel ha samsvarende og ikke-kompatible som etiketter.
Når du legger til eller redigerer testmetoder, velger du Egendefinert.
Skriv inn et navn for denne egendefinerte testen.
Legg til evalueringsinstruksjoner.
Legg til to eller flere etiketter. Hver etikett har et navn og en beskrivelse.
Hvis du vil legge til flere etiketter, velger du Legg til etikett.
Etiketttitler kan bare bruke bokstaver, tall, mellomrom, bindestrek
-, understrekingstegn_, skråstrek/, ampersand&, plusstegn+og punktum..Angi resultatet Pass eller Fail for hver etikett.
Velg OK.