Kommentar
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
[Denna artikel är en förhandsversion av dokumentationen och kan komma att ändras.]
När du skapar testuppsättningar, välj bland olika testmetoder för att utvärdera din agents svar. Varje testmetod har sina egna styrkor och passar olika typer av utvärderingar.
| Testmetod | Åtgärder | Poängsättning | Configurations |
|---|---|---|---|
| Allmän kvalitet | Hur bra är testfallets svar baserat på specifika egenskaper | Fick poäng av 100% | None |
| Jämför betydelsen | Hur väl betydelsen av testfallets svar stämmer överens med det förväntade svaret | Fick poäng av 100% | Godkänt resultat, förväntat svar |
| Verktygsanvändning | Om testfallet använde de förväntade resurserna | Godkänd/underkänd | Förväntade kapaciteter |
| Nyckelordsmatchning | Oavsett om testfallet använde alla eller några av de förväntade nyckelorden eller fraserna | Godkänd/underkänd | Förväntade nyckelord eller fraser |
| Textlikhet | Hur väl texten i testfallets svar stämmer överens med det förväntade svaret | Fick poäng av 100% | Godkänt resultat, förväntat svar |
| Exakt matchning | Om testfallets svar exakt motsvarar det förväntade svaret | Godkänd/underkänd | Förväntat svar |
| Skräddarsydd | Etiketter svarar baserat på de kriterier som du beskriver | Godkänd/underkänd | Testbeskrivning och etikettbeskrivningar |
Lägga till en testmetod
När du skapar eller redigerar en testuppsättning, välj Lägg till testmetod.
Välj alla metoder du vill testa med, välj sedan OK. Du kan lägga till flera metoder.
Vissa metoder kräver ett godkänt betyg. Godkänd poäng avgör vilket resultat som leder till godkänt eller underkänt. Sätt poängen, välj sedan OK.
Vissa testmetoder kräver fler kriterier.
Välj Spara för att spara dina ändringar i testuppsättningen.
Välj en befintlig testmetod för att redigera metodens kriterier eller ta bort den metoden.
Allmän kvalitet
Allmän kvalitet hjälper dig att avgöra om din agents svar uppfyller dina krav. Den använder en språkmodell för att bedöma hur effektivt en agent svarar på användarfrågor.
Allmän kvalitet är särskilt hjälpsam när det inte finns något exakt svar som förväntas. Det erbjuder ett flexibelt och skalbart sätt att utvärdera svar baserat på de hämtade dokumenten och samtalsflödet.
Den använder dessa nyckelkriterier och tillämpar en konsekvent prompt för att styra poängräkningen:
Relevans: I vilken utsträckning agentens svar hanterar frågan. Håller sig agentens svar till ämnet och svarar direkt på frågan?
Grundlighet: I vilken utsträckning agentens svar baseras på den angivna kontexten. Refererar agentens svar till exempel till eller förlitar sig på den information som ges i kontexten i stället för att införa orelaterad eller information som inte stöds?
Fullständighet: I vilken utsträckning innehåller agentens svar all nödvändig information. Tar agentens svar till exempel upp alla aspekter av frågan och ger tillräckligt med information?
Återhållsamhet: Huruvida agenten försökte besvara frågan.
För att anses vara av hög kvalitet måste ett svar uppfylla alla dessa nyckelkriterier. Om ett kriterium inte uppfylls flaggas svaret för förbättring. Den här bedömningsmetoden säkerställer att endast svar som är både fullständiga och har brett stöd får högsta betyg. Däremot får svar som är ofullständiga eller saknar stödbevis lägre poäng.
När du lägger till eller redigerar testmetoder, välj Allmän kvalitet. Alla testset börjar med denna metod som standard.
Du behöver inte lägga till förväntade svar i testfall för att genomföra en allmän kvalitetsutvärdering.
Jämför betydelsen
Jämför innebörden utvärderar hur väl agentens svar återspeglar den avsedda innebörden av det förväntade svaret. Istället för att fokusera på exakta formuleringar använder den avsiktslikhet, vilket betyder att den jämför idéerna och betydelsen bakom orden för att bedöma hur väl svaret stämmer överens med vad du förväntade dig.
Precis som allmän kvalitet är jämförande betydelse särskilt hjälpsamt när det inte finns något exakt svar som förväntas. Det erbjuder ett flexibelt och skalbart sätt att utvärdera svar baserat på de hämtade dokumenten och samtalsflödet.
Du kan ange ett tröskelvärde för godkännandepoäng för att avgöra vad som utgör en godkännandepoäng för ett svar. Det förvalda godkända resultatet är 50. Testmetoden Jämför innebörden är användbar när ett svar kan formuleras på olika sätt, men den övergripande innebörden eller avsikten måste fortfarande gå igenom.
När du lägger till eller redigerar testmetoder, välj Jämför betydelse.
Sätt godkänt poängtal för denna metod.
Lägg till de förväntade svaren. Alla testfall utan förväntade svar ger ett ogiltigt resultat för den här testmetoden.
Välj ett testfall.
Lägg till det svar du förväntar dig.
Välj Tillämpa för att spara det förväntade svaret.
Upprepa för alla testfall du vill testa med denna metod.
Verktygsanvändning
Verktygsanvändning testar om agenten har aktiverat specifika verktyg eller ämnen under körning. Om det gjorde det markeras resultatet som Pass. Om det inte gjorde det markeras resultatet som Fel.
När du lägger till eller redigerar testmetoder väljer du Verktygsanvändning.
Lägg till de förväntade verktygen eller ämnena. Alla testfall utan förväntade svar ger ett ogiltigt resultat för den här testmetoden.
Välj ett testfall. Om du vill lägga till samma förväntade verktyg och ämnen för alla testfall väljer du ikonen
Redigera i kolumnrubriken Verktygsanvändning.I fönstret Redigera testfall väljer du de verktyg som du förväntar dig att din agent ska använda för det testfallet.
Välj OK.
Välj Använd för att spara ändringar.
Upprepa för alla testfall som du vill testa för verktygsanvändning.
Nyckelordsmatchning
Nyckelordsmatchning kontrollerar om agentens svar innehåller några eller alla ord eller fraser från det förväntade svar som du definierar. Om det gör det, godkänns det. Om det inte gör det misslyckas det. Nyckelordsmatchning är användbar när ett svar kan formuleras på olika korrekta sätt, men nyckeltermer eller idéer ändå måste inkluderas i svaret.
Du kan välja om ett pass kräver något av nyckelorden eller alla . Att välja Any betyder att om minst ett ord eller en fras stämmer, så klarar testfallet. Att välja Alla innebär att alla förväntade ord eller fraser måste matcha för att ett testfall ska klara det.
När du lägger till eller redigerar testmetoder, välj Nyckelordsmatchning.
Välj om ett testfall behöver något av eller alla nyckelord för att matcha.
Lägg till de förväntade nyckelorden. Alla testfall utan förväntade nyckelord ger ett ogiltigt resultat för den här testmetoden.
Välj ett testfall.
I fönstret Redigera testfall lägger du till ett nyckelord eller en fras som du förväntar dig att ärendets svar ska ha.
Välj + Lägg till för att lägga till fler nyckelord eller fraser. Om du vill ta bort ett nyckelord eller en fras väljer du ikonen Ta bort
.Välj Tillämpa för att spara de förväntade nyckelorden.
Upprepa för alla testfall du vill testa för nyckelordsmatchning.
Textlikhet
Likhetstestmetoden jämför likheten mellan agentens svar och de förväntade svar du definierar i din testuppsättning. Det är användbart när ett svar kan formuleras på olika sätt, men den övergripande innebörden eller avsikten måste fortfarande gå igenom.
Den använder ett cosinuslikhetsmått för att bedöma hur likt agentens svar är formuleringen och innebörden av det förväntade svaret och avgör ett betyg. Poängen varierar mellan 0 och 1, där 1 anger att svaret matchar nära och 0 anger att det inte gör det. Du kan ange ett tröskelvärde för godkännandepoäng för att avgöra vad som utgör en godkännandepoäng för ett svar.
När du lägger till eller redigerar testmetoder, välj Textlikhet.
Sätt godkänt poängtal för denna metod.
Lägg till de förväntade svaren. Alla testfall utan förväntade svar ger ett ogiltigt resultat för den här testmetoden.
Välj ett testfall.
Lägg till det svar du förväntar dig.
Välj Tillämpa för att spara det förväntade svaret.
Upprepa för alla testfall du vill testa med denna metod.
Exakt matchning
Exakt matchning kontrollerar om agentens svar exakt matchar det förväntade svaret i testet: tecken för tecken, ord för ord. Om det är samma sak, passerar det. Om något skiljer sig åt godkänns det inte. Exakt matchning är användbart för korta, exakta svar som siffror, koder eller fasta fraser. Det passar inte svar som människor kan formulera på flera korrekta sätt.
När du lägger till eller redigerar testmetoder, välj Exakt matchning.
Lägg till de förväntade svaren. Alla testfall utan förväntade svar ger ett ogiltigt resultat för den här testmetoden.
Välj ett testfall.
Lägg till det svar du förväntar dig.
Välj Tillämpa för att spara det förväntade svaret.
Upprepa för alla testfall du vill testa med denna metod.
Skräddarsydd
Anpassad är en anpassningsbar testmetod. Med den kan du testa och märka agentsvar med hjälp av dina egna kriterier. Du kan till exempel skapa ett efterlevnadstest för en HR-agent för att märka testsvar som antingen kompatibla eller inkompatibla med din beskrivning av HR-efterlevnad.
Ett anpassat test har två komponenter som du kan konfigurera:
Utvärderingsinstruktioner: Beskriver det mål som du vill uppnå med det här testet. Vad vill du att testet ska ta reda på om agentens svar?
Bra utvärderingsinstruktioner bör:
Var målorienterad.
Använd endast de tillåtna tecknen.
Använd punktlistor och rubriker för att organisera.
Till exempel:
Evaluate the agent's response for HR policy compliance.
What to check:
- Determine whether the answer protects privacy and avoids revealing or requesting sensitive data.
- Avoids discrimination, bias, or inappropriate judgments.
- Provides safe, neutral, HR-aligned guidance.
- Does not give legal advice or make definitive claims.
Etiketter: Beskriver resultatet som tilldelats varje svar med hjälp av det anpassade testet. Etiketter har också pass/fail-tilldelningar, som räknas mot testuppsättningens godkännandefrekvens för den här testmetoden.
Etiketter har ett namn och en beskrivning. En bra beskrivning:
Är kortfattad.
Innehåller de attribut som du letar efter i matchande svar.
En strategi för etiketter är att ha två: en är svar som uppfyller de kriterier som du letar efter och den andra för svar som inte gör det. Ett anpassat test för HR-principefterlevnad kan till exempel ha kompatibla och inkompatibla som etiketter.
När du lägger till eller redigerar testmetoder väljer du Anpassad.
Ange ett namn för det här anpassade testet.
Lägg till utvärderingsinstruktioner.
Lägg till två eller flera etiketter. Varje etikett har ett namn och en beskrivning.
Om du vill lägga till fler etiketter väljer du Lägg till etikett.
Etikettrubriker kan bara använda bokstäver, siffror, mellanslag, bindestreck
-, understreck_, snedstreck/, ampersand&, plustecken+och punkt..Ange resultatet Pass eller Fail för varje etikett.
Välj OK.