次の方法で共有


Microsoft Foundry ポータル (クラシック) のコンテンツ の安全性

このドキュメントでは、 Microsoft Foundry (クラシック) ポータルを参照します。

🔍 新しいポータルの詳細については、Microsoft Foundry (新しい) ドキュメント を参照してください。

Azure AI Content Safetyは、アプリケーションやサービス内の有害なユーザー生成コンテンツと AI 生成コンテンツを検出する AI サービスです。 Azure AI Content Safetyには、有害なコンテンツの出力を検出して防ぐのに役立つ API が含まれています。 対話型の Content Safety 試してみる ページは Microsoft Foundry ポータル 内にあり、さまざまなモダリティで有害なコンテンツを検出するためのサンプルコードを表示、調査、試すことができます。

Features

次のシナリオでは、Azure AI Content Safetyを使用します。

テキスト コンテンツ

  • テキスト コンテンツをモデレートする: テキスト コンテンツをスキャンしてモデレートします。 適切な応答を確保するために、さまざまなレベルの重大度に基づいてテキストを識別して分類します。
  • 接地検出: AI の応答が、信頼できるユーザー指定のソースに基づいているかどうかを判断します。 この機能により、回答が意図した資料に "接地" されます。 接地検出は、応答の信頼性と実際の精度の向上に役立ちます。
  • テキストの保護された素材検出: 既知の曲の歌詞、記事、その他のコンテンツなど、保護されたテキスト 素材を識別します。 この機能により、AI がアクセス許可なしにこのコンテンツを出力しないようにします。
  • コードの保護されたマテリアル検出: パブリック リポジトリの既知のコードと一致するモデルの出力内のコード セグメントを検出します。 この機能は、ソース コードの編集されていない、または未承認の複製を防ぐのに役立ちます。
  • プロンプト シールド: "脱獄" と "間接攻撃" に対処するための統合 API を提供します。
    • ジェイルブレイク攻撃: ユーザーが AI を操作して、その安全プロトコルや倫理的ガイドラインを回避しようとする試み。 たとえば、AI をだまして不適切な応答を提供したり、回避するようにプログラミングされたタスクを実行したりするように設計されたプロンプトがあります。
    • 間接攻撃: クロスドメイン プロンプトインジェクション攻撃とも呼ばれます。 間接攻撃には、AI が処理する可能性があるドキュメント内に悪意のあるプロンプトを埋め込む必要があります。 たとえば、ドキュメント内に隠された指示がある場合、AI が誤ってそれらに従い、意図しない出力や安全でない出力につながる可能性があります。

画像コンテンツ

  • 画像コンテンツのモデレート: テキストモデレーションと同様に、この機能は画像コンテンツをフィルター処理して評価し、不適切または有害なビジュアルを検出します。
  • マルチモーダル コンテンツをモデレートする: テキストと画像の組み合わせを処理するように設計されています。 コンテキスト全体と、複数の種類のコンテンツにわたる潜在的なリスクを評価します。

カスタム フィルター処理

  • カスタム カテゴリ: ユーザーがコンテンツをモデレートおよびフィルター処理するための特定のカテゴリを定義できます。 独自のニーズに合わせて安全プロトコルを調整します。
  • 安全システム メッセージ: "システム メッセージ" を設定して、目的の動作と制限事項について AI に指示する方法を提供します。 これは、安全境界を強化し、不要な出力を防ぐのに役立ちます。

損害カテゴリを理解する

損害カテゴリ

カテゴリ [説明] API ターム
ヘイトと公平性 ヘイトや公平性に関する害とは、特定の区別される属性に基づいて、人やアイデンティティグループに攻撃を加えたり、差別的な言葉を使用したりするコンテンツを指します。

これには次のものが含まれますが、これらに限定されるわけではありません。
  • 人種、民族、国籍
  • 性別のアイデンティティ グループと表現
  • 性的指向
  • 宗教
  • 個人の外観、身体のサイズ
  • 障碍の状態
  • 嫌がらせといじめ
Hate
性的 性的とは、解剖学的臓器や生殖器、恋愛関係、性行為、性愛的または情愛的な用語で描写された行為 (暴行または意志に反した強制的な性的暴力行為として描写されたものを含む) に関連する言葉を表します。

これには次のようなものが含まれますが、これに限定されるわけではありません。
  • 低俗なコンテンツ
  • 売春
  • ヌードおよびポルノ
  • 迷惑行為
  • 児童搾取、児童虐待、チャイルド グルーミング
Sexual
暴力 暴力は、人や何かに苦痛を与える、傷つける、損傷を与える、殺害することを意図した物理的行為に関連する言葉、武器、銃器などを表します。

これには、次のようなものが含まれますが、これに限定されるものではありません。
  • 武器
  • いじめと脅迫
  • テロリスト、暴力的な過激主義
  • ストーカー行為
Violence
自傷行為 自傷行為とは、故意に自分の体に苦痛を与える、傷つける、ダメージを与える、または自殺することを意図した物理的行為に関連する言葉を表します。

これには、次のようなものが含まれますが、これに限定されるものではありません。
  • 摂食障害
  • いじめと脅迫
SelfHarm

重大度レベル

レベル [説明]
Safe コンテンツは、暴力、自傷行為、性的、またはヘイトのカテゴリに関連している可能性があります。 ただし、用語は一般的に、報道、科学、医療、および同様の専門的な文脈で使用され、ほとんどの対象ユーザーに対して適切なものです。
偏見的、批判的、または独断的な見解を表明するコンテンツには、(小程度の) 不快な言葉の使用、定型化、架空の世界を彷徨うユース ケース (ゲーム、文学など) や描写が含まれます。
ミディアム 特有のアイデンティティ グループに対して、不快、侮辱的、嘲笑、威圧的、または屈辱的な言葉を使用するコンテンツには、(中程度の) 有害な指示、妄想、賛美、害悪の助長を求めて実行する描写が含まれます。
明示的かつ重大な有害な指示、行為、損害、または虐待を示すコンテンツには、重大な有害行為や極端または違法な損害、急進化、または合意なしの権力の交換や虐待の支持、賛美、または促進が含まれます。

制限事項

すべての機能でサポートされているリージョン、レート制限、入力要件については、Content Safety Service の概要を参照してください。 サポートされている言語については、Language のサポート ページを参照してください。

次のステップ

FoundryポータルでAzure AI Content Safetyの使用を開始するには、ハウツーガイドに従ってください。