[この記事はプレリリース ドキュメントであり、変更されることがあります。]
テストセットを作成する際は、エージェントの応答を評価するために異なるテスト方法から選びましょう。 それぞれのテスト方法は独自の強みを持ち、異なる種類の評価に適しています。
| テスト メソッド | 対策 | ポイントの計算 | Configurations |
|---|---|---|---|
| 一般的な品質 | 特定の特性に基づくテストケースの回答の品質 | 100点満点 | None |
| 意味の比較 | テストケースの答えの意味が期待される答えとどれだけ一致しているか | 100点満点 | 合格点、期待される答え |
| ツールの使用 | テストケースが期待されるリソースを使用したかどうか | 合格/不合格 | 期待される能力 |
| キーワードマッチ | テストケースが予想されるキーワードやフレーズのすべてまたは一部を使ったかどうか | 合格/不合格 | 期待されるキーワードやフレーズ |
| テキストの類似性 | テストケースの回答のテキストが期待される答えとどれだけ一致しているか | 100点満点 | 合格点、期待される答え |
| 完全一致 | テストケースの答えが期待される答えと正確に一致しているかどうか | 合格/不合格 | 予想通りの答え |
| カスタム | 説明した条件に基づいて回答にラベルを付けます | 合格/不合格 | テストの説明とラベルの説明 |
テスト メソッドを追加する
テストセット を作成 または 編集 する際は、「 テストメソッドを追加」を選択します。
テストしたいすべての方法を選択し、 その後「OK」を選択してください。 複数の方法を追加することもできます。
一部の方法は合格点が必要です。 合格スコアは合格か失敗かを決定します。 スコアを設定してから OKを選択してください。
一部のテスト メソッドでは、より多くの条件が必要です。
テストセットに変更を保存するには 「保存 」を選択してください。
既存のテスト方法を選択して、その方法の基準を編集するか、削除してください。
一般的な品質
一般的な品質 は、エージェントの回答があなたの基準を満たしているかどうかを判断するのに役立ちます。 このツールは、エージェントがユーザーの質問にどれだけ効果的に答えているかを評価するために言語モデルを用いています。
一般的な品質は、正確な答えが期待されない場合に特に役立ちます。 取得した文書や会話の流れに基づいて、応答を評価する柔軟かつスケーラブルな方法を提供します。
これらの重要な基準を用い、一貫したプロンプトを適用して採点を導きます:
関連性: エージェントの応答がどの程度質問に対処するか。 たとえば、エージェントの応答は件名にとどまり、質問に直接答えますか?
グランデッドネス: エージェントの応答が提供されたコンテキストにどの程度基づいているか。 たとえば、エージェントの応答は、関連性のない情報やサポートされていない情報を導入するのではなく、コンテキストで指定された情報を参照するか、依存していますか?
完全性: エージェントの応答が必要なすべての情報をどの程度提供するか。 たとえば、エージェントの応答は質問のすべての側面をカバーし、十分な詳細を提供しますか?
棄権: エージェントが質問に答えようとしたかどうか。
高品質と見なされるには、回答がこれらすべての重要な基準を満たしている必要があります。 1つの基準が満たされなければ、その回答は改善の対象としてフラグが立てられます。 このスコア付け方法により、完全かつ適切にサポートされている応答のみが上位のマークを受け取ります。 これに対し、不完全な回答やサポート証拠がない回答は、スコアが低くなります。
テスト方法を追加または編集する際は、一般品質を選択します。 すべてのテストセットはデフォルトでこの方法で始まります。
一般的な品質評価を完了するために、テストケースに期待される答えを追加する必要はありません。
意味の比較
意味の比較 は、エージェントの回答が予想される応答の意図された意味をどの程度反映しているかを評価します。 正確な表現に焦点を当てるのではなく、意図の類似性、つまり言葉の背後にある考えや意味を比較し、反応がどれだけ期待に合致しているかを判断します。
一般的な品質と同様に、意味の比較は正確な答えが期待されない場合に特に役立ちます。 取得した文書や会話の流れに基づいて、応答を評価する柔軟かつスケーラブルな方法を提供します。
合格スコアのしきい値を設定して、回答の合格スコアを構成するものを決定できます。 デフォルトの合格スコアは50です。 比較意味テスト メソッドは、回答を異なる正しい方法で表現できるが、全体的な意味または意図が引き続き発生する必要がある場合に便利です。
テスト方法を追加または編集する際は、「意味を比較する」を選択してください。
この方法の合格スコアを設定してください。
予想される答えを加えます。 予期される回答がないテスト ケースでは、このテスト メソッドに 対して無効な 結果が生成されます。
テストケースを選びましょう。
期待する答えを加えてください。
「 応募」 を選択して、期待される答えを保存してください。
この方法でテストしたいすべてのテストケースで繰り返します。
ツールの使用
ツールは、 エージェントが実行中に特定のツールまたはトピックをトリガーしたかどうかをテストします。 その場合、結果は Pass としてマークされます。 そうでない場合、結果は Fail としてマーク されます。
テスト メソッドを追加または編集する場合は、[ツールの使用] を選択します。
期待されるツールやトピックを追加しましょう。 予期される回答がないテスト ケースでは、このテスト メソッドに 対して無効な 結果が生成されます。
テストケースを選びましょう。 すべてのテスト ケースに同じツールとトピックを追加するには、[ツールの使用] 列見出しの [編集] アイコンを選択します。
[ テスト ケースの編集 ] ウィンドウで、エージェントがそのテスト ケースに使用するツールを選択します。
[OK] を選択.
[適用] を選択して変更を保存します。
ツールを使用するためにテストするすべてのテスト ケースについて、この手順を繰り返します。
キーワードマッチ
キーワード一致 では、エージェントの回答に、定義した予想される応答の単語または語句の一部またはすべてが含まれているかどうかを確認します。 その場合は、合格します。 そうでない場合は失敗します。 キーワードマッチは、回答が異なる正しい表現ができるものの、重要な用語やアイデアを回答に含める必要がある場合に有用です。
パスの条件としてキーワードのいずれか、またはすべてを選ぶことができます。 「任意の選択」とは、少なくとも1つの単語やフレーズが一致すればテストケースは合格することを意味します。 「すべてを選ぶ」とは、テストケースが合格するためには、すべての期待される単語やフレーズが一致しなければならないことを意味します。
テスト方法を追加または編集する際は、キーワードマッチを選択します。
テストケースが一致するキーワードに「Any」または「All」のいずれかを選択します。
期待されるキーワードを追加してください。 キーワードが予期されていないテスト ケースでは、このテスト メソッドの 無効な 結果が生成されます。
テストケースを選びましょう。
[ テスト ケースの編集 ] ウィンドウで、そのケースの回答が必要なキーワードまたは語句を追加します。
[ + 追加] を選択して、キーワードや語句をさらに追加します。 キーワードまたは語句を削除するには、[ 削除 アイコンを選択します。
「 適用 」を選択して、期待されるキーワードを保存してください。
キーワードマッチングをテストしたいすべてのテストケースでこれを繰り返します。
テキストの類似性
類似性テスト法は、エージェントの応答とテストセットで定義された期待される応答の類似度を比較します。 これは、回答を異なる正しい方法で表現できるが、全体的な意味や意図を引き続き理解する必要がある場合に便利です。
コサイン類似性メトリックを使用して、エージェントの回答が予想される応答の文言と意味にどの程度類似しているかを評価し、スコアを決定します。 スコアの範囲は 0 から 1 で、1 は回答が密接に一致し、0 は一致しないことを示します。 合格スコアのしきい値を設定して、回答の合格スコアを構成するものを決定できます。
テスト方法を追加または編集する際は、「テキスト類似性」を選択してください。
この方法の合格スコアを設定してください。
予想される答えを加えます。 予期される回答がないテスト ケースでは、このテスト メソッドに 対して無効な 結果が生成されます。
テストケースを選びましょう。
期待する答えを加えてください。
「 応募」 を選択して、期待される答えを保存してください。
この方法でテストしたいすべてのテストケースで繰り返します。
完全一致
完全一致 では、エージェントの回答がテストで予想される応答 (文字の文字、単語の単語) と正確に一致するかどうかを確認します。 同じであれば、合格します。 何か異なる場合は失敗します。 完全一致は、数値、コード、固定語句などの短く正確な回答に役立ちます。 ユーザーが複数の正しい方法でフレーズできる回答には適していません。
テスト方法を追加または編集する際は、「完全一致」を選択してください。
予想される答えを加えます。 予期される回答がないテスト ケースでは、このテスト メソッドに 対して無効な 結果が生成されます。
テストケースを選びましょう。
期待する答えを加えてください。
「 応募」 を選択して、期待される答えを保存してください。
この方法でテストしたいすべてのテストケースで繰り返します。
カスタム
Custom はカスタマイズ可能なテスト メソッドです。 独自の条件を使用して、エージェントの回答をテストしてラベル付けすることができます。 たとえば、HR エージェントのコンプライアンス テストを作成して、HR コンプライアンスの説明に 準拠 しているか 非準拠 としてテスト回答にラベルを付けることができます。
カスタム テストには、次の 2 つのコンポーネントを構成できます。
評価手順: このテストで達成する目標について説明します。 テストでエージェントの回答について何を確認しますか?
適切な評価手順は次のとおりです。
目標志向であること。
使用できる文字のみを使用します。
箇条書きと見出しを使って、内容を整理してください。
例えば次が挙げられます。
Evaluate the agent's response for HR policy compliance.
What to check:
- Determine whether the answer protects privacy and avoids revealing or requesting sensitive data.
- Avoids discrimination, bias, or inappropriate judgments.
- Provides safe, neutral, HR-aligned guidance.
- Does not give legal advice or make definitive claims.
ラベル: カスタム テストを使用して各回答に割り当てられた結果を記述します。 ラベルには合格/失敗の割り当てもあり、この割り当ては、このテスト メソッドのテスト セットの合格率にカウントされます。
ラベルには名前と説明があります。 適切な説明:
簡潔です。
一致する回答で探している属性が含まれます。
ラベルの 1 つの戦略は、2 つを持つことです。1 つは、探している条件を正常に満たす回答と、そうでない回答です。 たとえば、HR ポリシー コンプライアンス カスタム テストでは、ラベルとして 準拠 と 非準拠 が設定されている場合があります。
テスト メソッドを追加または編集する場合は、[カスタム] を選択します。
このカスタム テストの名前を入力します。
評価手順を追加します。
2 つ以上のラベルを追加します。 各ラベルには、名前と説明があります。
ラベルを追加するには、[ラベルの 追加] を選択します。
ラベル タイトルでは、文字、数字、スペース、ハイフン 、アンダースコア 、スラッシュ 、アンパサンド 、プラス記号 、ピリオドの のみを使用できます。
各ラベルの 成功 または 失敗 の結果を設定します。
[OK] を選択.