Condividi tramite


Scegli i metodi di valutazione

[Questo articolo fa parte della documentazione non definitiva, pertanto è soggetto a modifiche.]

Quando crei set di test, scegli tra diversi metodi di test per valutare le risposte del tuo agente. Ogni metodo di prova ha i suoi punti di forza e si adatta a diversi tipi di valutazione.

Metodo di test Misure Punteggio Configurations
Qualità generale Quanto è valida la risposta del caso di prova basata su qualità specifiche Valutato su 100% None
Confronta il significato Quanto bene corrisponde il significato della risposta del caso di prova a quella attesa Valutato su 100% Punteggio di superamento, risposta attesa
Uso degli strumenti Se il caso di test utilizzava le risorse attese Superato/non superato Capacità attese
Corrispondenza delle parole chiave Se il caso di prova utilizzasse tutte o una delle parole chiave o frasi attese Superato/non superato Parole chiave o frasi attese
Somiglianza del testo Quanto corrisponde il testo della risposta del caso di prova con la risposta attesa Valutato su 100% Punteggio di superamento, risposta attesa
Corrispondenza esatta Se la risposta del caso di prova corrisponde esattamente a quella attesa Superato/non superato Risposta attesa
Personalizzato Etichetta le risposte in base ai criteri che descrivi Superato/non superato Descrizione del test e descrizioni delle etichette

Aggiungere un metodo di test

  1. Quando crei o modifichi un set di test, seleziona Aggiungi metodo di test.

  2. Seleziona tutti i metodi con cui vuoi testare, poi seleziona OK. Puoi aggiungere più metodi.

    1. Alcuni metodi richiedono un punteggio minimo richiesto. Il punteggio di passaggio determina quale punteggio porta a un passaggio o a un fallimento. Imposta il punteggio, poi seleziona OK.

    2. Alcuni metodi di test richiedono più criteri.

  3. Seleziona Salva per salvare le modifiche nel set di test.

Seleziona un metodo di test esistente per modificare i criteri di quel metodo o elimina quel metodo.

Qualità generale

La qualità generale ti aiuta a decidere se le risposte del tuo agente soddisfano i tuoi standard. Utilizza un modello linguistico per valutare quanto efficacemente un agente risponde alle domande degli utenti.

La qualità generale è particolarmente utile quando non ci si aspetta una risposta esatta. Offre un modo flessibile e scalabile per valutare le risposte in base ai documenti recuperati e al flusso della conversazione.

Utilizza questi criteri chiave e applica un prompt coerente per guidare il punteggio:

  • Pertinenza: in quale misura la risposta dell'agente risolve la domanda. Ad esempio, la risposta dell'agente rimane sull'oggetto e risponde direttamente alla domanda?

  • Attinenza: grado in cui la risposta dell'agente è basata sul contesto fornito. Ad esempio, fa riferimento alla risposta dell'agente o si basa sulle informazioni fornite nel contesto, anziché introdurre informazioni non correlate o non supportate?

  • Completezza: in quale misura la risposta dell'agente fornisce tutte le informazioni necessarie. Ad esempio, la risposta dell'agente riguarda tutti gli aspetti della domanda e fornisce dettagli sufficienti?

  • Astensione: indica se l'agente ha provato a fornire una risposta.

Per essere considerata di alta qualità, una risposta deve soddisfare tutti questi criteri chiave. Se un criterio non viene soddisfatto, la risposta viene segnalata per il miglioramento. Questo metodo di assegnazione dei punteggi garantisce che solo le risposte complete e supportate ricevano i primi punteggi. Al contrario, le risposte incomplete o prive di prove di supporto ricevono punteggi inferiori.

Quando aggiungi o modifica metodi di test, seleziona Qualità Generale. Tutti i set di test iniziano con questo metodo di default.

Non è necessario aggiungere le risposte attese ai casi di prova per completare una valutazione generale di qualità.

Confronta il significato

Confronta significato valuta il grado di risposta dell'agente che riflette il significato previsto della risposta prevista. Invece di concentrarsi su formulazioni esatte, utilizza la somiglianza tra intenti, cioè confronta le idee e il significato dietro le parole per giudicare quanto la risposta sia in linea con ciò che ti aspettavi.

Come la qualità generale, confrontare il significato è particolarmente utile quando non ci si aspetta una risposta esatta. Offre un modo flessibile e scalabile per valutare le risposte in base ai documenti recuperati e al flusso della conversazione.

Puoi impostare una soglia di punteggio minimo per determinare cosa costituisce un punteggio sufficiente per una risposta. Il punteggio predefinito per il passaggio è 50. Il metodo di test di confronto del risultato è utile quando una risposta può essere formulata in modi diversi ma corretti, purché il significato o la finalità complessiva rimanga chiara.

  1. Quando aggiungi o modifica metodi di test, seleziona Confronta significato.

  2. Imposta il punteggio di superamento per questo metodo.

  3. Aggiungi le risposte previste. Qualsiasi test case senza risposte previste genera un risultato non valido per questo metodo di test.

    1. Seleziona un caso di prova.

    2. Aggiungi la risposta che ti aspetti.

    3. Seleziona Applica per salvare la risposta attesa.

    4. Ripeti per tutti i casi di test che vuoi testare usando questo metodo.

Uso degli strumenti

Uso degli strumenti testa se l'agente ha attivato strumenti o argomenti specifici durante il processo operativo. In caso affermativo, il risultato viene contrassegnato come Pass. In caso contrario, il risultato viene contrassegnato come Fail.

  1. Quando si aggiungono o modificano i metodi di test, selezionare Usa strumento.

  2. Aggiungi gli strumenti o gli argomenti previsti. Qualsiasi test case senza risposte previste genera un risultato non valido per questo metodo di test.

    1. Seleziona un caso di prova. Per aggiungere gli stessi argomenti e gli stessi strumenti previsti per tutti i test case, selezionare l'icona Modifica nell'intestazione di colonna Usa strumento.

    2. Nel riquadro Modifica test case selezionare gli strumenti che si prevede che l'agente usi per tale test case.

    3. Seleziona OK.

    4. Selezionare Applica per salvare le modifiche.

    5. Ripetere per tutti i test case per verificare l'utilizzo degli strumenti.

Corrispondenza delle parole chiave

La corrispondenza tra parole chiave controlla se la risposta dell'agente contiene alcune o tutte le parole o tutte le frasi della risposta prevista definita dall'utente. In caso affermativo, passa. In caso contrario, ha esito negativo. La corrispondenza delle parole chiave è utile quando una risposta può essere formulata in modi corretti diversi, ma i termini chiave o le idee devono comunque essere inclusi nella risposta.

Puoi scegliere se un pass richiede una qualsiasi delle parole chiave o tutte . Scegliere Qualsiasi significa che se almeno una parola o frase corrisponde, il caso di prova passa. Scegliere Tutti significa che tutte le parole o frasi attese devono corrispondere affinché un caso di prova sia superato.

  1. Quando aggiungi o modifica metodi di test, seleziona Keyword matching (corrispondenza per parole chiave).

  2. Seleziona se un caso di prova necessita di Qualsiasi o Tutte le parole chiave per essere abbinate.

  3. Aggiungi le parole chiave previste. Qualsiasi test case senza parole chiave previste produce un risultato non valido per questo metodo di test.

    1. Seleziona un caso di prova.

    2. Nel riquadro Modifica test case, aggiungi una parola chiave o una frase che ci si aspetta appaia nella risposta del caso.

    3. Selezionare + Aggiungi per aggiungere altre parole chiave o frasi. Per rimuovere una parola chiave o una frase, selezionare l'icona Elimina .

    4. Seleziona Applica per salvare le parole chiave attese.

    5. Ripeti per tutti i casi di test che vuoi testare per il matching delle parole chiave.

Somiglianza del testo

Il metodo del test di similarità confronta la somiglianza delle risposte dell'agente con le risposte attese che definisci nel tuo set di test. È utile quando una risposta può essere formulata in modi diversi ma corretti, purché il significato o la finalità complessiva rimanga chiara.

Usa una metrica di somiglianza coseno per valutare il modo in cui la risposta dell'agente è simile alla formulazione e al significato della risposta prevista e determina un punteggio. Il punteggio è compreso tra 0 e 1, dove 1 indica che la risposta corrisponde esattamente e 0 indica che non lo fa. Puoi impostare una soglia di punteggio minimo per determinare cosa costituisce un punteggio sufficiente per una risposta.

  1. Quando aggiungi o modifica metodi di test, seleziona Somiglianza di testo.

  2. Imposta il punteggio di superamento per questo metodo.

  3. Aggiungi le risposte previste. Qualsiasi test case senza risposte previste genera un risultato non valido per questo metodo di test.

    1. Seleziona un caso di prova.

    2. Aggiungi la risposta che ti aspetti.

    3. Seleziona Applica per salvare la risposta attesa.

    4. Ripeti per tutti i casi di test che vuoi testare usando questo metodo.

Corrispondenza esatta

La corrispondenza esatta controlla se la risposta dell'agente corrisponde esattamente alla risposta prevista nel test: carattere per carattere, parola per parola. Se è lo stesso, passa. In caso di differenze, l'operazione ha esito negativo. La corrispondenza esatta è utile per risposte brevi e precise, ad esempio numeri, codici o frasi fisse. Non soddisfa le risposte che le persone possono frasare in diversi modi corretti.

  1. Quando aggiungi o modifica metodi di test, seleziona Corrispondenza esatta.

  2. Aggiungi le risposte previste. Qualsiasi test case senza risposte previste genera un risultato non valido per questo metodo di test.

    1. Seleziona un caso di prova.

    2. Aggiungi la risposta che ti aspetti.

    3. Seleziona Applica per salvare la risposta attesa.

    4. Ripeti per tutti i casi di test che vuoi testare usando questo metodo.

Personalizzato

Custom è un metodo di test personalizzabile. Consente di testare ed etichettare le risposte dell'agente usando criteri personalizzati. Ad esempio, è possibile creare un test di conformità per un agente HR per etichettare le risposte ai test come conformi o non conformi con la descrizione della conformità delle risorse umane.

Un test personalizzato include due componenti da configurare:

Istruzioni di valutazione: descrive l'obiettivo da raggiungere con questo test. Cosa vuoi che il test scopra sulle risposte del tuo agente?

Le istruzioni di valutazione valide devono:

  • Essere orientati agli obiettivi.

  • Usare solo i caratteri consentiti.

  • Usare punti elenco e intestazioni per l'organizzazione del contenuto.

Per esempio:

Evaluate the agent's response for HR policy compliance.

What to check:
- Determine whether the answer protects privacy and avoids revealing or requesting sensitive data.
- Avoids discrimination, bias, or inappropriate judgments.
- Provides safe, neutral, HR-aligned guidance.
- Does not give legal advice or make definitive claims.

Etichette: descrive il risultato assegnato a ogni risposta usando il test personalizzato. Le etichette hanno anche assegnazioni "pass/fail," che vengono conteggiate nel tasso di superamento del set di test di questo metodo di test.

Le etichette hanno un nome e una descrizione. Una buona descrizione:

  • È conciso.

  • Contiene gli attributi che si stanno cercando nelle risposte corrispondenti.

Una strategia per le etichette consiste nell'avere due risposte che soddisfano correttamente i criteri che si stanno cercando e l'altra per le risposte che non lo fanno. Ad esempio, un test personalizzato di conformità dei criteri HR potrebbe avere etichette conformi e non conformi .

  1. Quando si aggiungono o modificano metodi di test, selezionare Personalizzato.

  2. Immettere un nome per questo test personalizzato.

  3. Aggiungere le istruzioni di valutazione.

  4. Aggiungere due o più etichette. Ogni etichetta ha un nome e una descrizione.

    Per aggiungere altre etichette, selezionare Aggiungi etichetta.

    I titoli delle etichette possono usare solo lettere, numeri, spazio, trattino , sottolineatura , barra , e commerciale (&) , segno più , e punto .

  5. Impostare il risultato Pass o Fail per ogni etichetta.

  6. Seleziona OK.