Del via


Brug rubrics i test

Du kan bruge rubrics i to forskellige tilstande i Copilot Studio Kit-testautomatisering. Forståelse af forskellen mellem disse tilstande er afgørende for effektiv brug af funktionen Rubrics Refinement.

Tilstande for brug af rubric

Brug af rubric i Copilot Studio Kit fungerer i to tilstande:

Aspekt Testtilstand (testcaseniveau) Afgrænsningstilstand (testkørselsniveau)
Formål Regelmæssig testautomatisering med brugerdefineret klassificering Iterativ forfining af bedømmelsesskema
Tildelingsniveau Individuelt testtilfælde Hele testkørslen
Brugstilfælde Løbende kvalitetssikring Ved raffinering af rubrickvalitet
AI-ræsonnering Score kun (omkostningseffektiv) Score + detaljeret begrundelse (dyrere)
Beståelseskarakter Bestemmer bestået eller mislykket Kun oplysningsindikator
Mål Identificer svar af lav kvalitet Minimer fejljustering mellem kunstig intelligens og mennesker

Testtilstand: Testcase-niveau-rubrikker

Testtilstand er designet til regelmæssig brug af en raffineret rubric til at automatisere bedømmelsen af generative svar testcases.

Brug testtilstand

Brug rubrikker på testcaseniveau i Copilot Studio Kit, når du:

  • Hav en raffineret, pålidelig rubric klar til regelmæssig brug.
  • Vil automatisere kvalitetstjek af generative svarsvar i eksisterende testsæt.
  • Har brug for brugerdefinerede evalueringskriterier ud over standardvalidering i Copilot Studio Kit.

Tildel en rubric på testcaseniveau

Sådan tildeler du en rubric på testcaseniveau:

  1. Åbn eller opret en testcase, hvor Testtype er angivet som Generative svar.
  2. Vælg en rubric på rullelisten Rubric . Når du vælger en rubric, skjules feltet Forventede svar-/valideringsinstruktioner , da rubric erstatter standardvalideringslogik.
  3. Angiv beståelsesklassen.
  4. Vælg Save.

Skærmbillede af tildeling af en rubric på testcaseniveau.

Sådan fungerer en rubric på testcaseniveau

Når du tildeler en rubric på testcaseniveau, gør den følgende:

  • Erstatter standardvalidering: Den rubricbaserede AI-grader erstatter standardlogikken for generative svar.
  • Evaluerer svaret: AI-dommeren vurderer agentens svar ved hjælp af rubrickriterierne.
  • Tildeler en karakter: Der genereres en score fra 1 til 5 på baggrund af rubrikken.
  • Bestemmer bestået eller mislykket:
    • Bestået: Karakteren er større end eller lig med grænsen for beståelsesklassen.
    • Mislykket: Karakteren er mindre end grænsen for beståelseskvalitet.
  • Ingen detaljeret begrundelse: For at holde omkostningerne lave, er det kun karakteren, der er angivet, ikke ræsonnering.

Angiv beståelseskarakteren

Den bestående karakter angiver det mindste acceptable kvalitetsniveau:

Afleveringsklasse Beskrivelse Brugsscenarie
5 (standard) Der sendes kun eksemplariske svar Du har brug for de højeste kvalitetsstandarder
4 Stærke eller bedre svar godkendes Du accepterer svar af høj kvalitet med mindre forbedringer mulige
3 Acceptable eller bedre svar bliver godkendt Du skal bruge svar, der opfylder de minimale funktionelle krav
2 Svage eller bedre svar godkendes Du angiver en meget lav søjle (anbefales sjældent)
1 Alle svar sendes undtagen det værste Næsten aldrig egnet til kvalitetssikring

I forbindelse med de fleste kvalitetssikringsbrugssager skal du bruge beståelsesklasse 5 eller 4 for at opretholde høje standarder.

Formålet med testtilstanden

Testtilstand hjælper dig med at:

  • Identificer svar af lav kvalitet , der kræver opmærksomhed.
  • Automatiser regressionstest med ensartede evalueringskriterier.
  • Skaler kvalitetssikring på tværs af mange testcases.
  • Anvend domænespecifikke standarder , som generisk validering ikke kan registrere.

Afgrænsningstilstand: Test kørselsniveau-rubrics

Afgrænsningstilstand understøtter den iterative proces med at oprette og forbedre en rubric ved at sammenligne AI-klassificering med menneskelig klassificering.

Brug afgrænsningstilstand

Brug testkørselsniveau-rubrics i Copilot Studio Kit, når du:

  • Opret eller afgræns en rubric.
  • Behovet for at tilpasse AI-klassificeringen til menneskelig dom.
  • Ønsker at sammenligne AI og menneskelige vurderinger.
  • Vi gentager for at forbedre rubrikkens kvalitet.

Tildel en rubric på testkørselsniveau

Sådan tildeles en rubric på testkørselsniveau:

  1. Åbn eller opret en testkørsel.
  2. Vælg en rubric på rullelisten Rubric .
  3. Angiv beståelsesklassen. Standarden er 5 - (eksemplarisk). Denne værdi er kun oplysende i afgrænsningstilstanden, da målet er justering og ikke aflevering af scorer.
  4. Vælg Gem , og udfør testkørslen.

Skærmbillede af testkørslen med rubric.

Sådan fungerer en rubric på testkørselsniveau

Når du tildeler en rubric på testkørselsniveauet, er det:

  • Gælder for alle generative svarprøver: De valgte rubrics tilsidesætter eventuelle rubrics, der er angivet på testcaseniveau.
  • Springer ikke-ga-testtyper over: Testcases, der ikke er generative svar, springes helt over.
  • Kører AI-klassificering med ræsonnering: AI-dommeren leverer begge dele:
    • Karakter (1-5): kvalitetsscore
    • Rationale: Detaljeret ræsonnering, der forklarer karakteren
  • Aktiverer arbejdsprocessen for afgrænsning: Resultaterne omfatter felter til menneskelig klassificering og justeringsindikatorer.
  • Er dyrere: Hvis du genererer detaljerede begrundelser, øges omkostningerne til ai-behandling.

Forstå beståelsesklasse

I forfiningstilstand er beståelseskarakteren kun vejledende og ikke et mål.

  • Formål: Den bestående karakter hjælper dig med at identificere, hvilke svar der falder under din målgrænse.
  • Ikke målet: Målet med afgrænsning er at minimere forskydning mellem AI og menneskelige karakterer, ikke at få alle svar til at passere.
  • Eksempel: Hvis du angiver beståelseskarakteren som 5, og AI giver en karakter på 3, så fortæller den karakter dig, at dette svar ikke opfylder din standard. Men det afgørende er, om det menneskelige også klassificerer det som 3 (justering) eller anderledes (forskydning).

Forskel mellem test- og afgrænsningstilstande

Rubric valgt på testcaseniveau Rubric valgt på testkørselsniveau Der er ikke valgt nogen rubric
  • Testkørsel fortsætter normalt med alle testtyper.
  • AI-grader giver kun karakter (ingen begrundelse) for omkostningseffektivitet.
  • Kun testcases med tildelte rubrics bruger AI-klassificering; andre bruger standardvalidering.
  • Resultatvisning viser standardtestresultater.
  • Testkørsel er specifikt til forfining af kriterier.
  • AI-grader giver karakter + begrundelse for generative svar-tests.
  • Ikke-generative svartesttyper springes over.
  • Valideringsinstruktioner på testcaseniveau ignoreres.
  • Resultatvisning viser grænsefladen for afgrænsning af rubric med felter til menneskelig klassificering.
  • Standardvalidering af generative svar gælder (metaprompt + valideringsinstruktioner).
  • Bestået eller mislykket bestemt af eksisterende valideringslogik.
  • Resultatvisning viser standardtestresultater.

Adfærdsnoter

Her er nogle vigtige adfærdsnoter, der kan bruges til at forstå, hvornår du bruger rubrics i forskellige tilstande:

Rubrichierarki og tilsidesættelser

  • Rubric på testkørselsniveau tilsidesætter rubrikker på testcaseniveau: Hvis du vælger en rubric på testkørselsniveauet, gælder det for alle Generative Answer-testcases og ignorerer eventuelle rubrics, der er tildelt til individuelle testcases.
  • Testcaseniveau-rubrics er uafhængige: Når du ikke vælger en rubric på testkørselsniveau, bruger hver testcase sin egen rubric (hvis den er tildelt) eller standardvalidering (hvis ikke).

Ikke-generativ svar-testtyper

Når du vælger en rubric på testkørselsniveauet:

  • Ikke-GA testtyper springes over: Rubrikker gælder kun for generative besvarelsestestcases.
  • Rationale: Rubrics er designet til at evaluere generative svar, ikke andre testtyper som handling, emne eller samtaleflow.

Når rubric vælges på testcaseniveau:

  • Ikke-GA testtyper kører normalt: Kun en bestemt generativt svar-testcase bruger rubrikken.

Valideringsinstruktioner og -rubrikker

  • Gensidigt eksklusive: Du kan ikke bruge rubricbaserede klassificerings- og valideringsinstruktioner sammen.
  • Når du vælger en rubric: Feltet Valideringsinstruktioner er skjult (testcaseniveau) eller ignoreret (testkørselsniveau).
  • Rationale: Rubrik erstatter valideringslogik helt.

Overvejelser om omkostninger

Måde Ai-klassificeringstype Omkostning Hvornår skal du bruge?
Testtilstand (testcase) Kun bedømmelse Lower
  • Regelmæssig kvalitetssikring
  • Test af store mængder
Afgrænsningstilstand (testkørsel) Karakter + rationale Højere
  • Forfining af rubric
  • Justeringsanalyse
  • Iterativ forbedring af lav volumen

Arbejdsproces: Fra afgrænsning til test

Den typiske arbejdsproces går fra afgrænsning til test.

Fase 1: Rubric-afgrænsning (testkørselsniveau)

  1. Opret en indledende rubric.
  2. Tildel en rubric på testkørselsniveau.
  3. Udfør testkørsel med AI-klassificering samt rationale.
  4. Giv menneskelige karakterer.
  5. Sammenlign justering.
  6. Afgræns rubric baseret på forkert justering.
  7. Gentag, indtil justering er acceptabel.

Fase 2: Regelmæssig test (testcaseniveau)

  1. Sørg for, at en rubric er raffineret og pålidelig.
  2. Tildel en rubric på testcaseniveau.
  3. Brug en rubric i løbende testautomatisering.
  4. AI-klassificering uden begrundelse (omkostningseffektiv).
  5. Bestået eller ikke bestået baseret på beståelseskarakter.
  6. Gå tilbage til forfining, hvis der opstår kvalitetsproblemer.

Vælg den rigtige tilstand

Vælg mellem testtilstand (testcaseniveau) og afgrænsningstilstand (testkørselsniveau) baseret på dine aktuelle mål, og hvor du befinder dig i livscyklussen for udvikling af rubric.

Brug testtilstand (testcaseniveau)

Brug testtilstanden (testcaseniveau), hvis:

  • Din rubric er stabil og veljusteret.
  • Du udfører rutinemæssig kvalitetssikring.
  • Du har brug for omkostningseffektiv automatiseret klassificering.
  • Resultaterne af bestået eller ikke bestået er dit primære fokus.

Brug afgrænsningstilstand (testkørselsniveau)

Brug afgrænsningstilstanden (testkørselsniveau), hvis:

  • Du opretter en ny rubric.
  • Du forbedrer en eksisterende rubric.
  • Du skal sammenligne AI og menneskelig dom.
  • Du vil gerne forstå AI-ræsonnering.
  • Justeringsanalyse er dit primære mål.

Bedste praksis

Brug følgende bedste fremgangsmåder til effektivt at bruge rubrics i både test- og afgrænsningstilstande:

  1. Start med afgrænsningstilstanden: Afgræns altid en rubric ved hjælp af tildeling på testkørselsniveau, før du udruller den på testcaseniveau til regelmæssig test.
  2. Brug repræsentative testcases: I forbindelse med afgrænsning skal du vælge testcases, der repræsenterer de mange forskellige svar, du kan støde på i produktionen.
  3. Angiv realistiske beståelseskarakterer: Du skal ikke lade bestå karakteren være 5 som standard, medmindre du virkelig har brug for, at hvert svar har eksemplarisk kvalitet. Overvej:
    • Karakter 5: Reserve til kritisk kommunikation (IR-rapporter, chefoversigter).
    • Karakter 4: Egnet til de fleste forretningskommunikationer.
    • Karakter 3: Mindste funktionelle kvalitet for interne værktøjer.
  4. Overvåg justering over tid: Selv raffinerede rubrics kan ændre sig. Angiv jævnligt afgrænsningstilstand igen for at kontrollere justeringen i forhold til de aktuelle forventninger.
  5. Dokument rubric formål: Tilføj noter i din rubric beskrivelse om:
    • Tiltænkt brugssag
    • Mål for beståelsesgrad
    • Eventuelle særlige overvejelser
  6. Test på testkørselsniveau før bekræftelse: Før du tildeler en ny rubric til mange testcases, skal du køre en testkørsel med den først for at bekræfte, at den fungerer som forventet.

Få mere at vide i Bedste fremgangsmåder og tip til afgrænsning af rubric.

Næste trin