Condividi tramite


Usare rubriche nei test

È possibile usare le rubriche in due modalità distinte all'interno dell'automazione dei test di Copilot Studio Kit. Comprendere la differenza tra queste modalità è essenziale per un uso efficace della funzionalità Perfezionamento rubriche.

Modalità di utilizzo della rubrica

L'uso della rubrica in Copilot Studio Kit funziona in due modalità:

Aspetto Modalità di test (livello test case) Modalità di perfezionamento (livello di esecuzione test)
Purpose Automazione dei test regolare con classificazione personalizzata Raffinamento iterativo della griglia di valutazione
Livello di assegnazione Caso di test singolo Esecuzione completa dei test
caso d'uso Garanzia di qualità in corso Quando si affina la qualità del rubrico
Ragionamento dell'intelligenza artificiale Solo punteggio (economico) Punteggio e logica dettagliata (più costoso)
Passaggio del grado Determina il superamento o l'insuccesso Solo indicatore informativo
Obiettivo Identificare risposte di bassa qualità Ridurre al minimo il disallineamento tra esseri umani e intelligenza artificiale

Modalità di test: rubriche a livello di test case

La modalità di test è progettata per l'uso regolare di una rubrica perfezionata per automatizzare la classificazione dei casi di test di risposta generativi.

Usare la modalità di test

Usare i criteri di valutazione a livello di test case in Copilot Studio Kit quando:

  • Avere una rubrica personalizzata raffinata e affidabile pronta per un uso regolare.
  • Si vuole automatizzare i controlli di qualità per le risposte generative nei set di test esistenti.
  • Sono necessari criteri di valutazione personalizzati oltre la convalida standard in Copilot Studio Kit.

Assegnare una rubrica a livello di test case

Per assegnare un rubrico a livello di test case:

  1. Aprire o creare un test case con il tipo di test impostato come Risposte generative.
  2. Selezionare una rubrica dall'elenco a discesa Rubrico . Quando si seleziona una rubrica, il campo Expected Response/Validation Instructions (Istruzioni di risposta/convalida previste ) è nascosto, perché la rubrica sostituisce la logica di convalida standard.
  3. Impostare il livello di passaggio.
  4. Seleziona Salva.

Screenshot dell'assegnazione di una rubrica a livello di test case.

Funzionamento di una rubrica a livello di test case

Quando si assegna una rubrica a livello di test case, esegue le operazioni seguenti:

  • Sostituisce la convalida standard: il classificatore di intelligenza artificiale basato su rubrico sostituisce la logica di convalida predefinita delle risposte generative.
  • Valuta la risposta: il giudice di intelligenza artificiale valuta la risposta dell'agente usando i criteri di rubrica.
  • Assegna un voto: viene generato un punteggio compreso tra 1 e 5 in base alla rubrica.
  • Determina il passaggio o l'esito negativo:
    • Pass: grade è maggiore o uguale alla soglia di valutazione superata.
    • Esito negativo: il voto è inferiore alla soglia di voto sufficiente.
  • Nessuna logica dettagliata: per mantenere bassi i costi, viene fornito solo il grado, non il ragionamento.

Impostare il voto di passaggio

Il grado di passaggio imposta il livello di qualità minimo accettabile:

Passaggio del grado Descrizione caso d'uso
5 (impostazione predefinita) Passano solo risposte esemplari Sono necessari gli standard di qualità più elevati
4 Le risposte forti o migliori vengono accettate Si accettano risposte di alta qualità con miglioramenti minori possibili
3 Le risposte accettabili o migliori sono considerate sufficienti Sono necessarie risposte che soddisfino i requisiti funzionali minimi
2 Passaggio di risposte deboli o migliori Stai impostando un livello molto basso (raramente consigliato)
1 Tutte le risposte passano tranne le peggiori Quasi mai appropriato per la garanzia di qualità

Per la maggior parte dei casi d'uso di controllo qualità, utilizzare il passaggio di grado 5 o 4 per mantenere standard elevati.

Scopo della modalità di test

La modalità di test consente di:

  • Identificare risposte di bassa qualità che richiedono attenzione.
  • Automatizzare i test di regressione con criteri di valutazione coerenti.
  • Ridimensionare la garanzia di qualità su molti casi di test.
  • Applicare standard specifici del dominio che la convalida generica non può acquisire.

Modalità di affinamento: criteri di valutazione a livello di esecuzione dei test

La modalità di perfezionamento supporta il processo iterativo di creazione e miglioramento di un rubrico confrontando la classificazione dell'intelligenza artificiale con la classificazione umana.

Usare la modalità di affinamento

Usare i criteri a livello di esecuzione del test in Copilot Studio Kit quando:

  • Creare o perfezionare una rubrica.
  • È necessario allineare la classificazione dell'intelligenza artificiale al giudizio umano.
  • Si vuole confrontare l'intelligenza artificiale e le valutazioni umane.
  • Si sta iterando per migliorare la qualità della rubrica.

Assegnare una rubrica al livello di esecuzione del test

Per assegnare una rubrica a livello di esecuzione del test:

  1. Aprire o creare un'esecuzione di test.
  2. Selezionare una rubrica dall'elenco a discesa Rubrico .
  3. Impostare il livello di passaggio. Il valore predefinito è 5 - (esemplare). Questo valore è informativo solo nella modalità di affinamento, perché l'obiettivo è l'allineamento, non il raggiungimento di punteggi.
  4. Selezionare Salva ed eseguire l'esecuzione del test.

Screenshot dell'esecuzione del test con la rubrica.

Funzionamento di una rubrica a livello di esecuzione del test

Quando si assegna una rubrica a livello di esecuzione del test, è possibile:

  • Si applica a tutti i test di risposta generativi: la rubrica selezionata esegue l'override di tutte le rubriche impostate a livello di test case.
  • Ignora i tipi di test non GA: i test case che non sono risposte generative vengono ignorati completamente.
  • Esegue la valutazione dell'intelligenza artificiale con il ragionamento: il giudice di intelligenza artificiale fornisce entrambi:
    • Grado (1-5): punteggio di qualità
    • Razionale: ragionamento dettagliato che spiega il grado
  • Abilita il flusso di lavoro di perfezionamento: i risultati includono campi di gradazione umana e indicatori di allineamento.
  • È più costoso: la generazione di razionalità dettagliate aumenta i costi di elaborazione dell'intelligenza artificiale.

Informazioni sul passaggio del grado

In modalità di affinamento, il grado di passaggio è informativo solo, non un obiettivo.

  • Scopo: La soglia di passaggio consente di identificare le risposte che rientrano al di sotto della soglia target.
  • Non l'obiettivo: l'obiettivo del perfezionamento è ridurre al minimo il disallineamento tra l'intelligenza artificiale e i voti umani, non di far superare tutte le risposte.
  • Esempio: se si imposta il voto di passaggio come 5 e l'intelligenza artificiale fornisce un grado pari a 3, tale grado indica che questa risposta non rientra nello standard. Ma ciò che conta è se anche l'essere umano lo valuta come 3 (allineamento) o diversamente (disallineamento).

Differenza tra le modalità di test e perfezionamento

Rubrica selezionata a livello di test case Criterio selezionato a livello di esecuzione del test Nessuna rubrica selezionata
  • L'esecuzione dei test procede normalmente con tutti i tipi di test.
  • Il valutatore di intelligenza artificiale fornisce solo il grado (senza motivazione) per l'efficienza dei costi.
  • Solo i test case con rubriche assegnate usano la classificazione di intelligenza artificiale; altri usano la convalida standard.
  • La visualizzazione Risultati mostra i risultati dei test standard.
  • L'esecuzione dei test è specificamente per il perfezionamento della rubrica.
  • Il valutatore di intelligenza artificiale offre il grado e la motivazione per i test di risposte generative.
  • I tipi di test di risposta non generativi vengono ignorati.
  • Le istruzioni di convalida a livello di test case vengono ignorate.
  • La visualizzazione Risultati mostra l'interfaccia di perfezionamento della rubrica con i campi di gradazione umana.
  • Si applica la convalida delle risposte generative standard (meta-prompt + istruzioni di convalida).
  • Passare o non riuscire determinato dalla logica di convalida esistente.
  • La visualizzazione Risultati mostra i risultati dei test standard.

Note comportamentali

Ecco alcune note comportamentali chiave da comprendere quando si usano rubriche in modalità diverse:

Gerarchia della rubrica valutativa e sostituzioni

  • La rubrica a livello di esecuzione del test esegue l'override delle rubriche a livello di test case: se si seleziona una rubrica a livello di esecuzione del test, si applica a tutti i test case di risposta generativi, ignorando eventuali rubriche assegnate ai singoli test case.
  • Le rubriche a livello di test case sono indipendenti: quando non si seleziona una rubrica a livello di esecuzione del test, ogni test case usa la propria rubrica (se assegnata) o la convalida standard (in caso contrario).

Tipi di test di risposte non generativi

Quando si seleziona una rubrica a livello di svolgimento del test:

  • I tipi di test non GA vengono ignorati: le rubriche si applicano solo ai test case di risposta generativi.
  • Logica: le rubriche sono progettate per valutare le risposte generative, non altri tipi di test, ad esempio azione, argomento o flusso di conversazione.

Quando la rubrica è selezionata a livello di test case:

  • I tipi di test non GA vengono eseguiti normalmente: solo un test case di risposta generativo specifico usa la rubrica.

Istruzioni e rubriche di convalida

  • Si escludono a vicenda: non è possibile usare insieme istruzioni di valutazione e convalida basate su rubriche.
  • Quando si seleziona una rubrica: il campo Istruzioni di convalida è nascosto (livello test case) o ignorato (livello di esecuzione test).
  • Razionale: la rubrica sostituisce completamente la logica di convalida.

Considerazioni sui costi

Modalità Tipo di classificazione di intelligenza artificiale Cost Quando utilizzare
Modalità test (caso di test) Solo grado inferiore
  • Garanzia di qualità regolare
  • Test con volumi elevati
Modalità di raffinamento (esecuzione di test) Grade + Razionale Più alto
  • Perfezionamento della griglia di valutazione
  • Analisi dell'allineamento
  • Miglioramento iterativo a basso volume

Flusso di lavoro: dall'affinamento al test

Il flusso di lavoro tipico procede dall'affinamento al test.

Fase 1: Perfezionamento dei criteri di valutazione (livello di esecuzione dei test)

  1. Creare una rubrica iniziale.
  2. Assegnare un rubrico a livello di esecuzione del test.
  3. Eseguire un test con la valutazione dell'intelligenza artificiale e motivazione.
  4. Fornire valutazioni umane.
  5. Confrontare l'allineamento.
  6. Raffinare i criteri sulla base del disallineamento.
  7. Ripetere finché l'allineamento è accettabile.

Fase 2: test regolari (livello di test case)

  1. Assicurarsi che un criterio di valutazione sia perfezionato e affidabile.
  2. Assegnare una rubrica a livello del caso di test.
  3. Usare una rubrica nell'automazione dei test in corso.
  4. Valutazione dell'IA senza giustificazione (economico).
  5. Promozione o bocciatura in base al voto minimo richiesto.
  6. Tornare al perfezionamento se emergono problemi di qualità.

Scegliere la modalità corretta

Scegliere tra la modalità di test (livello di test case) e la modalità di raffinamento (livello di esecuzione test) in base agli obiettivi correnti e dove sei nel ciclo di sviluppo delle rubriche.

Usare la modalità di test (livello test case)

Usare la modalità di test (livello test case) se:

  • Lo schema è stabile e ben allineato.
  • Stai facendo un controllo di qualità di routine.
  • È necessaria una classificazione automatizzata conveniente.
  • I risultati di superamento o fallimento sono il tuo obiettivo principale.

Usare la modalità di affinamento (livello di esecuzione dei test)

Usare la modalità di affinamento (livello di esecuzione dei test) se:

  • Si sta creando una nuova rubrica.
  • Stai migliorando una rubrica di valutazione esistente.
  • È necessario confrontare l'intelligenza artificiale e il giudizio umano.
  • Si vuole comprendere il ragionamento dell'intelligenza artificiale.
  • L'analisi dell'allineamento è l'obiettivo principale.

Procedure consigliate

Usare le procedure consigliate seguenti per usare in modo efficace le rubriche in modalità di test e perfezionamento:

  1. Iniziare con la modalità di perfezionamento: perfezionare sempre una rubrica usando l'assegnazione del livello di esecuzione del test prima di implementarla a livello di caso di test per i test ordinari.
  2. Usare test case rappresentativi: per il perfezionamento, selezionare test case che rappresentano la varietà di risposte che potrebbero verificarsi nell'ambiente di produzione.
  3. Impostare voti realistici di passaggio: Non impostare il voto di sufficienza come 5 di default, a meno che non sia assolutamente necessaria una qualità esemplare per ogni risposta. Valutare:
    • Grado 5: riservare per le comunicazioni critiche (report IR, riepiloghi esecutivi).
    • Grado 4: appropriato per la maggior parte delle comunicazioni aziendali.
    • Grado 3: qualità funzionale minima per gli strumenti interni.
  4. Monitorare l'allineamento nel tempo: anche le rubriche perfezionate potrebbero deviare. Reinserire periodicamente la modalità di perfezionamento per controllare l'allineamento con le aspettative correnti.
  5. Scopo della rubrica del documento: aggiungere note nella descrizione della rubrica su:
    • Caso d'uso previsto
    • Voto minimo richiesto
    • Eventuali considerazioni speciali
  6. Test a livello di esecuzione del test prima del commit: prima di assegnare una nuova rubrica a molti test case, eseguire prima un'esecuzione di test con essa per verificare che funzioni come previsto.

Per altre informazioni, vedere Procedure consigliate e suggerimenti per il perfezionamento della rubrica.

Passo successivo