Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
È possibile usare le rubriche in due modalità distinte all'interno dell'automazione dei test di Copilot Studio Kit. Comprendere la differenza tra queste modalità è essenziale per un uso efficace della funzionalità Perfezionamento rubriche.
Modalità di utilizzo della rubrica
L'uso della rubrica in Copilot Studio Kit funziona in due modalità:
| Aspetto | Modalità di test (livello test case) | Modalità di perfezionamento (livello di esecuzione test) |
|---|---|---|
| Purpose | Automazione dei test regolare con classificazione personalizzata | Raffinamento iterativo della griglia di valutazione |
| Livello di assegnazione | Caso di test singolo | Esecuzione completa dei test |
| caso d'uso | Garanzia di qualità in corso | Quando si affina la qualità del rubrico |
| Ragionamento dell'intelligenza artificiale | Solo punteggio (economico) | Punteggio e logica dettagliata (più costoso) |
| Passaggio del grado | Determina il superamento o l'insuccesso | Solo indicatore informativo |
| Obiettivo | Identificare risposte di bassa qualità | Ridurre al minimo il disallineamento tra esseri umani e intelligenza artificiale |
Modalità di test: rubriche a livello di test case
La modalità di test è progettata per l'uso regolare di una rubrica perfezionata per automatizzare la classificazione dei casi di test di risposta generativi.
Usare la modalità di test
Usare i criteri di valutazione a livello di test case in Copilot Studio Kit quando:
- Avere una rubrica personalizzata raffinata e affidabile pronta per un uso regolare.
- Si vuole automatizzare i controlli di qualità per le risposte generative nei set di test esistenti.
- Sono necessari criteri di valutazione personalizzati oltre la convalida standard in Copilot Studio Kit.
Assegnare una rubrica a livello di test case
Per assegnare un rubrico a livello di test case:
- Aprire o creare un test case con il tipo di test impostato come Risposte generative.
- Selezionare una rubrica dall'elenco a discesa Rubrico . Quando si seleziona una rubrica, il campo Expected Response/Validation Instructions (Istruzioni di risposta/convalida previste ) è nascosto, perché la rubrica sostituisce la logica di convalida standard.
- Impostare il livello di passaggio.
- Seleziona Salva.
Funzionamento di una rubrica a livello di test case
Quando si assegna una rubrica a livello di test case, esegue le operazioni seguenti:
- Sostituisce la convalida standard: il classificatore di intelligenza artificiale basato su rubrico sostituisce la logica di convalida predefinita delle risposte generative.
- Valuta la risposta: il giudice di intelligenza artificiale valuta la risposta dell'agente usando i criteri di rubrica.
- Assegna un voto: viene generato un punteggio compreso tra 1 e 5 in base alla rubrica.
-
Determina il passaggio o l'esito negativo:
- Pass: grade è maggiore o uguale alla soglia di valutazione superata.
- Esito negativo: il voto è inferiore alla soglia di voto sufficiente.
- Nessuna logica dettagliata: per mantenere bassi i costi, viene fornito solo il grado, non il ragionamento.
Impostare il voto di passaggio
Il grado di passaggio imposta il livello di qualità minimo accettabile:
| Passaggio del grado | Descrizione | caso d'uso |
|---|---|---|
| 5 (impostazione predefinita) | Passano solo risposte esemplari | Sono necessari gli standard di qualità più elevati |
| 4 | Le risposte forti o migliori vengono accettate | Si accettano risposte di alta qualità con miglioramenti minori possibili |
| 3 | Le risposte accettabili o migliori sono considerate sufficienti | Sono necessarie risposte che soddisfino i requisiti funzionali minimi |
| 2 | Passaggio di risposte deboli o migliori | Stai impostando un livello molto basso (raramente consigliato) |
| 1 | Tutte le risposte passano tranne le peggiori | Quasi mai appropriato per la garanzia di qualità |
Per la maggior parte dei casi d'uso di controllo qualità, utilizzare il passaggio di grado 5 o 4 per mantenere standard elevati.
Scopo della modalità di test
La modalità di test consente di:
- Identificare risposte di bassa qualità che richiedono attenzione.
- Automatizzare i test di regressione con criteri di valutazione coerenti.
- Ridimensionare la garanzia di qualità su molti casi di test.
- Applicare standard specifici del dominio che la convalida generica non può acquisire.
Modalità di affinamento: criteri di valutazione a livello di esecuzione dei test
La modalità di perfezionamento supporta il processo iterativo di creazione e miglioramento di un rubrico confrontando la classificazione dell'intelligenza artificiale con la classificazione umana.
Usare la modalità di affinamento
Usare i criteri a livello di esecuzione del test in Copilot Studio Kit quando:
- Creare o perfezionare una rubrica.
- È necessario allineare la classificazione dell'intelligenza artificiale al giudizio umano.
- Si vuole confrontare l'intelligenza artificiale e le valutazioni umane.
- Si sta iterando per migliorare la qualità della rubrica.
Assegnare una rubrica al livello di esecuzione del test
Per assegnare una rubrica a livello di esecuzione del test:
- Aprire o creare un'esecuzione di test.
- Selezionare una rubrica dall'elenco a discesa Rubrico .
- Impostare il livello di passaggio. Il valore predefinito è 5 - (esemplare). Questo valore è informativo solo nella modalità di affinamento, perché l'obiettivo è l'allineamento, non il raggiungimento di punteggi.
- Selezionare Salva ed eseguire l'esecuzione del test.
Funzionamento di una rubrica a livello di esecuzione del test
Quando si assegna una rubrica a livello di esecuzione del test, è possibile:
- Si applica a tutti i test di risposta generativi: la rubrica selezionata esegue l'override di tutte le rubriche impostate a livello di test case.
- Ignora i tipi di test non GA: i test case che non sono risposte generative vengono ignorati completamente.
-
Esegue la valutazione dell'intelligenza artificiale con il ragionamento: il giudice di intelligenza artificiale fornisce entrambi:
- Grado (1-5): punteggio di qualità
- Razionale: ragionamento dettagliato che spiega il grado
- Abilita il flusso di lavoro di perfezionamento: i risultati includono campi di gradazione umana e indicatori di allineamento.
- È più costoso: la generazione di razionalità dettagliate aumenta i costi di elaborazione dell'intelligenza artificiale.
Informazioni sul passaggio del grado
In modalità di affinamento, il grado di passaggio è informativo solo, non un obiettivo.
- Scopo: La soglia di passaggio consente di identificare le risposte che rientrano al di sotto della soglia target.
- Non l'obiettivo: l'obiettivo del perfezionamento è ridurre al minimo il disallineamento tra l'intelligenza artificiale e i voti umani, non di far superare tutte le risposte.
- Esempio: se si imposta il voto di passaggio come 5 e l'intelligenza artificiale fornisce un grado pari a 3, tale grado indica che questa risposta non rientra nello standard. Ma ciò che conta è se anche l'essere umano lo valuta come 3 (allineamento) o diversamente (disallineamento).
Differenza tra le modalità di test e perfezionamento
| Rubrica selezionata a livello di test case | Criterio selezionato a livello di esecuzione del test | Nessuna rubrica selezionata |
|---|---|---|
|
|
|
Note comportamentali
Ecco alcune note comportamentali chiave da comprendere quando si usano rubriche in modalità diverse:
Gerarchia della rubrica valutativa e sostituzioni
- La rubrica a livello di esecuzione del test esegue l'override delle rubriche a livello di test case: se si seleziona una rubrica a livello di esecuzione del test, si applica a tutti i test case di risposta generativi, ignorando eventuali rubriche assegnate ai singoli test case.
- Le rubriche a livello di test case sono indipendenti: quando non si seleziona una rubrica a livello di esecuzione del test, ogni test case usa la propria rubrica (se assegnata) o la convalida standard (in caso contrario).
Tipi di test di risposte non generativi
Quando si seleziona una rubrica a livello di svolgimento del test:
- I tipi di test non GA vengono ignorati: le rubriche si applicano solo ai test case di risposta generativi.
- Logica: le rubriche sono progettate per valutare le risposte generative, non altri tipi di test, ad esempio azione, argomento o flusso di conversazione.
Quando la rubrica è selezionata a livello di test case:
- I tipi di test non GA vengono eseguiti normalmente: solo un test case di risposta generativo specifico usa la rubrica.
Istruzioni e rubriche di convalida
- Si escludono a vicenda: non è possibile usare insieme istruzioni di valutazione e convalida basate su rubriche.
- Quando si seleziona una rubrica: il campo Istruzioni di convalida è nascosto (livello test case) o ignorato (livello di esecuzione test).
- Razionale: la rubrica sostituisce completamente la logica di convalida.
Considerazioni sui costi
| Modalità | Tipo di classificazione di intelligenza artificiale | Cost | Quando utilizzare |
|---|---|---|---|
| Modalità test (caso di test) | Solo grado | inferiore |
|
| Modalità di raffinamento (esecuzione di test) | Grade + Razionale | Più alto |
|
Flusso di lavoro: dall'affinamento al test
Il flusso di lavoro tipico procede dall'affinamento al test.
Fase 1: Perfezionamento dei criteri di valutazione (livello di esecuzione dei test)
- Creare una rubrica iniziale.
- Assegnare un rubrico a livello di esecuzione del test.
- Eseguire un test con la valutazione dell'intelligenza artificiale e motivazione.
- Fornire valutazioni umane.
- Confrontare l'allineamento.
- Raffinare i criteri sulla base del disallineamento.
- Ripetere finché l'allineamento è accettabile.
Fase 2: test regolari (livello di test case)
- Assicurarsi che un criterio di valutazione sia perfezionato e affidabile.
- Assegnare una rubrica a livello del caso di test.
- Usare una rubrica nell'automazione dei test in corso.
- Valutazione dell'IA senza giustificazione (economico).
- Promozione o bocciatura in base al voto minimo richiesto.
- Tornare al perfezionamento se emergono problemi di qualità.
Scegliere la modalità corretta
Scegliere tra la modalità di test (livello di test case) e la modalità di raffinamento (livello di esecuzione test) in base agli obiettivi correnti e dove sei nel ciclo di sviluppo delle rubriche.
Usare la modalità di test (livello test case)
Usare la modalità di test (livello test case) se:
- Lo schema è stabile e ben allineato.
- Stai facendo un controllo di qualità di routine.
- È necessaria una classificazione automatizzata conveniente.
- I risultati di superamento o fallimento sono il tuo obiettivo principale.
Usare la modalità di affinamento (livello di esecuzione dei test)
Usare la modalità di affinamento (livello di esecuzione dei test) se:
- Si sta creando una nuova rubrica.
- Stai migliorando una rubrica di valutazione esistente.
- È necessario confrontare l'intelligenza artificiale e il giudizio umano.
- Si vuole comprendere il ragionamento dell'intelligenza artificiale.
- L'analisi dell'allineamento è l'obiettivo principale.
Procedure consigliate
Usare le procedure consigliate seguenti per usare in modo efficace le rubriche in modalità di test e perfezionamento:
- Iniziare con la modalità di perfezionamento: perfezionare sempre una rubrica usando l'assegnazione del livello di esecuzione del test prima di implementarla a livello di caso di test per i test ordinari.
- Usare test case rappresentativi: per il perfezionamento, selezionare test case che rappresentano la varietà di risposte che potrebbero verificarsi nell'ambiente di produzione.
-
Impostare voti realistici di passaggio: Non impostare il voto di sufficienza come 5 di default, a meno che non sia assolutamente necessaria una qualità esemplare per ogni risposta. Valutare:
- Grado 5: riservare per le comunicazioni critiche (report IR, riepiloghi esecutivi).
- Grado 4: appropriato per la maggior parte delle comunicazioni aziendali.
- Grado 3: qualità funzionale minima per gli strumenti interni.
- Monitorare l'allineamento nel tempo: anche le rubriche perfezionate potrebbero deviare. Reinserire periodicamente la modalità di perfezionamento per controllare l'allineamento con le aspettative correnti.
-
Scopo della rubrica del documento: aggiungere note nella descrizione della rubrica su:
- Caso d'uso previsto
- Voto minimo richiesto
- Eventuali considerazioni speciali
- Test a livello di esecuzione del test prima del commit: prima di assegnare una nuova rubrica a molti test case, eseguire prima un'esecuzione di test con essa per verificare che funzioni come previsto.
Per altre informazioni, vedere Procedure consigliate e suggerimenti per il perfezionamento della rubrica.