Del via


Afgrænsning af rubrics i Copilot Studio Kit

Afgrænsning af rubrics i Copilot Studio Kit hjælper dig med at oprette, teste og iterativt forbedre standarder for genbrugsevaluering (rubrics) for AI-genererede svar. Denne funktion hjælper med at sikre, at AI-klassificeringen af din agents svar er i overensstemmelse med menneskers dømmekraft og organisationens kvalitetsstandarder.

Agentevaluering og AI-dommere

En AI-dommer er en stor sprogmodel (LLM), der evaluerer kvaliteten af din agents svar ved at anvende en rubric, du definerer. AI-dommeren efterligner, hvad en menneskelig evaluator gør, når den vurderer svarkvaliteten, men den fungerer automatisk og i stor skala.

Nøjagtigheden af dens klassificering afhænger helt af, hvor godt rubric fanger dine kvalitetsstandarder. Uden en systematisk måde at finjustere evalueringskriterier på, kæmper organisationer med at:

  • Definer klare, domænespecifikke evalueringsstandarder
  • Sammenlign AI-klassificering med menneskelige forventninger
  • Identificer, hvor rubricinstruktioner ikke kan registrere de tilsigtede kvalitetskriterier
  • Skab tillid til ai-evalueringsoutput til kritiske virksomhedsbrugssager

Indsnævring af rubrics løser disse udfordringer ved at levere en iterativ arbejdsproces, der bringer AI-klassificering i overensstemmelse med menneskelig dom.

fordele

  • Evalueringsstandarder, der kan genbruges: Definer rubrics én gang, og genbrug dem på tværs af flere agenter og testkørsler.
  • Tilpasning med menneskelig dom: Systematisk minimere forskydning mellem AI og menneskelige gradere.
  • Kvalitetssikring: Etablere holdbare virksomhedsaktiver, der koder organisatoriske kvalitetsstandarder.
  • Tillid til AI-evaluering: Skab tillid til automatiseret klassificering gennem gennemsigtig, iterativ afgrænsning.

Rubrics som evalueringsstandarder

En rubric er et struktureret sæt klassificeringsinstruktioner på naturligt sprog, som en AI-dommer bruger til at evaluere kvaliteten af en agents svar. En rubric indeholder:

  • En beskrivelse af "hvordan et godt svar ser ud"
  • Karakterdefinitioner for en 5-punkts skala (f.eks. 5 for eksemplarisk, 1 for behovsforbedring)
  • Valgfrie gode og dårlige eksempler, der illustrerer kvalitetsstandarder

AI-klassificering i forhold til menneskelig klassificering

  • AI-klassificering: En AI-dommer (LLM) bruger rubrikken til at evaluere svar. Det genererer en karakter (1-5) og en begrundelse, der forklarer dens vurdering.
  • Human grading: En menneskelig evaluator (udvikler) vurderer de samme svar. De giver deres egen karakter (1-5) og ræsonnering.
  • Sammenligning: Ved at sammenligne disse to vurderinger kan du identificere, hvor rubric'en skal afgrænses.

Justering og fejljustering

  • Justering: Når AI-karakteren matcher den menneskelige klasse, fungerer rubricen efter hensigten.
  • Fejljustering: Når AI-bedømmelsen adskiller sig fra den menneskelige karakter, skal bedømmelsesskemaet forbedres.

Iterativ afgrænsningsproces

Afgrænsning af rubrics er en iterativ proces. Følg disse trin:

  1. Definer en indledende rubrik med evalueringskriterier.
  2. Kør test ved hjælp af rubric til at generere AI-karakterer.
  3. Gennemse agenters svar, og angiv karakterer givet af mennesker.
  4. Sammenlign AI- og menneskelige vurderinger for at identificere fejljustering.
  5. Markér gode og dårlige eksempler for at vejlede afgrænsningen.
  6. Afgræns rubricen ved hjælp af AI-analyse af fejljusteringsmønstre.
  7. Kør test igen med den opdaterede rubric.
  8. Gentag, indtil justering er acceptabel.

Primært mål

Målet med rubrics afgrænsning er ikke at få alle svar klassificeret som 5 (eksemplarisk). Målet er at minimere forskydning mellem AI og menneskelige gradere.

Svaroptimering – faktisk forbedring af kvaliteten af din agents svar – sker i selve Copilot Studio. Afgrænsning af rubrics fokuserer udelukkende på at sikre, at dine evalueringskriterier afspejler den menneskelige dømmekraft nøjagtigt, så du kan stole på automatiserede klassificeringsresultater.

Tilstande for brug af rubric

Rubrics i Copilot Studio Kit tjener to forskellige formål:

  • Testtilstand (testcaseniveau)

    • Formål: Regelmæssig testautomatisering med brugerdefinerede klassificeringskriterier.
    • Konfiguration: Tildel rubric på det individuelle testcaseniveau.
    • Use case: Løbende kvalitetssikring af Generative Answer-testcases.
    • Bestået/mislykket: Karakteren er større end eller lig med grænsen for beståelsesklasse (standard: 5).
  • Afgrænsningstilstand (testkørselsniveau)

    • Formål: Iterativt forfine og forbedre selve rubrikken.
    • Konfiguration: Tildel rubric på testkørselsniveau.
    • Use case: Dedikeret arbejdsproces til afgrænsning af rubrics.
      • Bestået/mislykket: Beståelseskarakter er kun vejledende. Målet er justering, ikke aflevering af scorer.
    • Nøgleforskel: AI giver detaljerede begrundelser (dyrere) til understøttelse af analyse.

Hvem skal bruge rubrikker afgrænsning?

Rubrics forfining er ideel til:

  • Kvalitetssikringsteams: Fastlæg ensartede evalueringsstandarder på tværs af agenter.
  • Opretter: Opret pålidelige automatiserede test ved hjælp af generative svarsvar.
  • Virksomhedsorganisationer: Definer domænespecifikke kvalitetsstandarder for organisationer.
  • Alle, der søger tillid til AI-evaluering: Teams, der har brug for tillid til automatiseret klassificering i kritiske use cases.

Hvad er inkluderet i denne version?

  • Fuldfør administration af rubric (opret, få vist, rediger, dupliker, slet).
  • Rubrictildeling på testkørselsniveau (til afgrænsning) og testcaseniveau (til test).
  • Valg af bedømmelse med klar differentiering mellem test- og forbedringstilstande.
  • To afgrænsningsvisninger: Standard (AI-karakterer skjult for at undgå bias) og Fuld (AI-karakterer synlige).
  • Detaljeret visning af klassificering af længere svar.
  • Mulighed for at markere testcases som gode eller dårlige eksempler.
  • AI-drevet forfining af rubrikker baseret på tilpasningsanalyse.
  • Gem og gem-som-indstillinger til bevarelse af rubricversionerne.
  • Understøttelse af iterativ afgrænsningsarbejdsproces.

Hvad er planlagt til fremtidige udgivelser

  • Opret testsæt automatisk ud fra transskriptioner af samtaler.
  • Forbedret diagnosticering og analyse.
  • Styring af rubric (godkendelser, livscyklus, udgivelse).
  • Forbedret grænseflade til dedikeret tilpasning af rubrics.

Kom i gang

Sådan begynder du at bruge forfining af rubrics:

  1. Opret en rubric , der definerer dine kvalitetsstandarder.
  2. Forbered testcases med generative svar-testtyper.
  3. Konfigurer en testkørsel for forbedring af rubrics.
  4. Følg arbejdsprocessen for indsnævring af rubric for at justere AI med menneskelig dømmekraft.

Næste trin