Vælg evalueringsmetoder

[Denne artikel er til dokumentationen til den foreløbige udgivelse. Der kan forekomme ændringer.]

Når du opretter testsæt, skal du vælge mellem forskellige testmetoder for at evaluere din agents svar. Hver testmetode har sine egne styrker og passer til forskellige typer evalueringer.

Testmetode	Målinger	Bedømmelse	Konfigurationer
Generel kvalitet	Hvor godt er testcases svar baseret på specifikke kvaliteter	Scoret ud af 100%	None
Sammenlign betydning	Hvor godt betydningen af testtilfældets svar matcher det forventede svar	Scoret ud af 100%	Godkendt score, forventet svar
Værktøjsbrug	Om testsagen brugte de forventede ressourcer	Bestået/ikke bestået	Forventede kapaciteter
Nøgleordsmatch	Om testsagen brugte alle eller nogle af de forventede nøgleord eller fraser	Bestået/ikke bestået	Forventede nøgleord eller fraser
Tekstlighed	Hvor godt teksten i testtilfældets svar matcher det forventede svar	Scoret ud af 100%	Godkendt score, forventet svar
Præcist match	Om testtilfældets svar præcist matcher det forventede svar	Bestået/ikke bestået	Forventet svar
Brugerdefineret	Mærk svar baseret på de kriterier, du beskriver	Bestået/ikke bestået	Beskrivelse af test og mærkat

Tilføj en testmetode

Når du opretter eller redigerer et testsæt, vælg Tilføj testmetode.
Vælg alle de metoder, du vil teste med, og vælg derefter OK. Du kan tilføje flere metoder.
1. Nogle metoder kræver en beståelsesscore. Beståelsesscoren bestemmer, hvilken score der resulterer i bestået eller ikke-bestået. Sæt scoren, og vælg derefter OK.
2. Nogle testmetoder kræver flere kriterier.
Vælg Save for at gemme dine ændringer i testsættet.

Vælg en eksisterende testmetode for at redigere den metodes kriterier eller slet den metode.

Generel kvalitet

Generel kvalitet hjælper dig med at afgøre, om din agents svar lever op til dine standarder. Den bruger en sprogmodel til at vurdere, hvor effektivt en agent besvarer brugerspørgsmål.

Generel kvalitet er især nyttig, når der ikke forventes noget præcist svar. Det tilbyder en fleksibel og skalerbar måde at evaluere svar baseret på de hentede dokumenter og samtaleflowet.

Den bruger disse nøglekriterier og anvender en konsekvent prompt til at styre scoringen:

Relevans: I hvilket omfang agentens svar behandler spørgsmålet. Bliver agentens svar f.eks. ved med at være på emnet og besvarer spørgsmålet direkte?
Jordforbindelse: I hvilket omfang agentens svar er baseret på den angivne kontekst. Anvender agentens svarreference f.eks. de oplysninger, der er angivet i konteksten, i stedet for at introducere ikke-relaterede eller ikke-understøttede oplysninger?
Fuldstændighed: I hvilket omfang agentens svar giver alle nødvendige oplysninger. Dækker agentens svar f.eks. alle aspekter af spørgsmålet og giver tilstrækkelige detaljer?
Undladelse: Hvorvidt agenten forsøgte at besvare spørgsmålet.

For at blive betragtet som høj kvalitet skal et svar opfylde alle disse nøglekriterier. Hvis et kriterium ikke opfyldes, markeres svaret for forbedring. Denne scoremetode sikrer, at det kun er svar, der både er komplette og velunderstøttede, der modtager topmærker. I modsætning hertil modtager svar, der er ufuldstændige eller mangler dokumentation, lavere scorer.

Når du tilføjer eller redigerer testmetoder, vælg Generel kvalitet. Alle testsæt starter som standard med denne metode.

Du behøver ikke tilføje forventede svar til testcases for at gennemføre en generel kvalitetsvurdering.

Sammenlign betydning

Sammenligning af betydning evaluerer, hvor godt agentens svar afspejler den tilsigtede betydning af det forventede svar. I stedet for at fokusere på præcise formuleringer bruger den intentionslighed, hvilket betyder, at den sammenligner idéerne og betydningen bag ordene for at vurdere, hvor tæt svaret stemmer overens med det, du forventede.

Ligesom generel kvalitet er sammenligningsbetydning især nyttig, når der ikke forventes noget præcist svar. Det tilbyder en fleksibel og skalerbar måde at evaluere svar baseret på de hentede dokumenter og samtaleflowet.

Du kan angive en grænse for afleveringsscore for at bestemme, hvad der udgør en afleveringsscore for et svar. Standardbeståelsesscoren er 50. Sammenligning betyder testmetode er nyttig, når et svar kan formuleres på forskellige korrekte måder, men den overordnede betydning eller hensigt skal stadig gennemgås.

Når du tilføjer eller redigerer testmetoder, vælg Sammenlign betydning.
Sæt beståelsesscoren for denne metode.
Tilføj de forventede svar. Alle testcases uden forventede svar giver et ugyldigt resultat for denne testmetode.
1. Vælg et testtilfælde.
2. Tilføj det svar, du forventer.
3. Vælg Anvend for at gemme det forventede svar.
4. Gentag for alle de testcases, du vil teste, ved at bruge denne metode.

Værktøjsbrug

Test af brug af værktøj , om agenten udløste bestemte værktøjer eller emner under kørselsprocessen. Hvis det er gjort, markeres resultatet som Pass. Hvis det ikke var muligt, markeres resultatet som Mislykket.

Når du tilføjer eller redigerer testmetoder, skal du vælge Værktøjsanvendelse.
Tilføj de forventede værktøjer eller emner. Alle testcases uden forventede svar giver et ugyldigt resultat for denne testmetode.
1. Vælg et testtilfælde. Hvis du vil tilføje de samme forventede værktøjer og emner for alle testcases, skal du vælge ikonet Rediger i kolonneoverskriften Værktøjsbrug.
2. I ruden Rediger testcase skal du vælge de værktøjer, du forventer, at din agent skal bruge til den pågældende testcase.
3. Vælg OK.
4. Vælg Anvend for at gemme ændringer.
5. Gentag for alle de testcases, du vil teste til brug i værktøjer.

Nøgleordsmatch

Nøgleordsmatch kontrollerer, om agentens svar indeholder nogle eller alle ord eller udtryk fra det forventede svar, du definerer. Hvis det gør, det passerer. Hvis det ikke gør det, mislykkes det. Nøgleordsmatch er nyttigt, når et svar kan formuleres på forskellige korrekte måder, men nøgleord eller idéer stadig skal inkluderes i svaret.

Du kan vælge, om et pas kræver et af nøgleordene eller alle af dem. At vælge Any betyder, at hvis mindst ét ord eller en sætning matcher, består testtilfældet. At vælge Alle betyder, at alle forventede ord eller vendinger skal matche, for at et testtilfælde kan bestå det.

Når du tilføjer eller redigerer testmetoder, vælg Keyword match.
Vælg om et testtilfælde kræver, at Enhver eller Alle nøgleord matcher.
Tilføj de forventede nøgleord. Alle testcases uden forventede nøgleord giver et ugyldigt resultat for denne testmetode.
1. Vælg et testtilfælde.
2. I ruden Rediger testcase skal du tilføje et nøgleord eller udtryk, som du forventer, at denne sags svar skal have.
3. Vælg + Tilføj for at tilføje flere nøgleord eller udtryk. Hvis du vil fjerne et nøgleord eller et udtryk, skal du vælge ikonet Slet .
4. Vælg Anvend for at gemme de forventede nøgleord.
5. Gentag for alle testcases, du vil teste for søgeordsmatch.

Tekstlighed

Lighedstestmetoden sammenligner ligheden mellem agentens svar og de forventede svar, du definerer i dit testsæt. Det er nyttigt, når et svar kan formuleres på forskellige korrekte måder, men den overordnede betydning eller hensigt skal stadig gennemgås.

Den bruger en metrikværdi for cosinus lighed til at vurdere, hvordan agentens svar svarer til formuleringen og betydningen af det forventede svar og bestemmer en score. Scoren ligger mellem 0 og 1, hvor 1 angiver, at svaret stemmer tæt overens, og 0 angiver, at det ikke er. Du kan angive en grænse for afleveringsscore for at bestemme, hvad der udgør en afleveringsscore for et svar.

Når du tilføjer eller redigerer testmetoder, vælg Tekstlighed.
Sæt beståelsesscoren for denne metode.
Tilføj de forventede svar. Alle testcases uden forventede svar giver et ugyldigt resultat for denne testmetode.
1. Vælg et testtilfælde.
2. Tilføj det svar, du forventer.
3. Vælg Anvend for at gemme det forventede svar.
4. Gentag for alle de testcases, du vil teste, ved at bruge denne metode.

Præcist match

Nøjagtigt match kontrollerer, om agentens svar stemmer nøjagtigt overens med det forventede svar i testen: tegn for tegn, ord for ord. Hvis det er det samme, så går det igennem. Hvis noget er forskelligt, mislykkes det. Nøjagtigt match er nyttigt til korte, præcise svar, f.eks. tal, koder eller faste udtryk. Det passer ikke til svar, som folk kan udtrykke på flere korrekte måder.

Når du tilføjer eller redigerer testmetoder, vælg Præcis match.
Tilføj de forventede svar. Alle testcases uden forventede svar giver et ugyldigt resultat for denne testmetode.
1. Vælg et testtilfælde.
2. Tilføj det svar, du forventer.
3. Vælg Anvend for at gemme det forventede svar.
4. Gentag for alle de testcases, du vil teste, ved at bruge denne metode.

Brugerdefineret

Brugerdefineret er en testmetode, der kan tilpasses. Det giver dig mulighed for at teste og navngive agentens svar ved hjælp af dine egne kriterier. Du kan f.eks. oprette en overholdelsestest for en HR-agent for at mærke testsvar som enten overholder eller ikke overholder din beskrivelse af HR-overholdelse.

En brugerdefineret test indeholder to komponenter, som du kan konfigurere:

Evalueringsinstruktioner: Beskriver det mål, du vil opnå med denne test. Hvad skal testen finde ud af om din agents svar?

Gode evalueringsinstruktioner skal:

Vær målorienteret.
Brug kun de tilladte tegn.
Brug punkttegn og overskrifter til organisation.

Eksempel:

Evaluate the agent's response for HR policy compliance.

What to check:
- Determine whether the answer protects privacy and avoids revealing or requesting sensitive data.
- Avoids discrimination, bias, or inappropriate judgments.
- Provides safe, neutral, HR-aligned guidance.
- Does not give legal advice or make definitive claims.

Mærkater: Beskriver det resultat, der er tildelt til hvert svar, ved hjælp af den brugerdefinerede test. Etiketterne har også bestået/ikke bestået tildelinger, som tæller med i testsættets beståelsesgrad for denne testmetode.

Etiketter har et navn og en beskrivelse. En god beskrivelse:

Er præcis.
Indeholder de attributter, du leder efter i matchende svar.

Én strategi for mærkater er at have to: Den ene er svar, der opfylder de kriterier, du leder efter, og den anden for svar, der ikke opfylder de kriterier, du leder efter. En brugerdefineret test af overholdelse af HR-politikken kan f.eks. have kompatibel og ikke-kompatibel som mærkater.

Når du tilføjer eller redigerer testmetoder, skal du vælge Brugerdefineret.
Angiv et navn til denne brugerdefinerede test.
Tilføj evalueringsinstruktioner.
Tilføj to eller flere navne. Hver etiket har et navn og en beskrivelse.

Hvis du vil tilføje flere navne, skal du vælge Tilføj etiket.

Navnetitler kan kun bruge bogstaver, tal, mellemrum, bindestreg -, understregningstegn _, skråstreg /, og -tegn &, plustegn +og punktum ..
Angiv resultatet Pass eller Fail for hver etiket.
Vælg OK.

Feedback

Var denne side nyttig?

Last updated on 2026-03-05