Foundry Tools オーディオソリューションの Azure Content Understanding

オーディオアナライザーを使用すると、会話型オーディオの文字起こしと diarization が可能になり、サマリー、センチメント、主要なトピックなどの構造化フィールドが抽出されます。 Foundry ポータルでニーズに合わせてオーディオアナライザーテンプレートをカスタマイズして、結果の生成を開始します。

会話型オーディオデータ処理の一般的なシナリオを次に示します。

要約と感情分析を通じて顧客インサイトを取得する。
コールセンターの通話品質とコンプライアンスを評価し検証する。
ポッドキャスト配信の自動要約とメタデータを作成する。

オーディオアナライザーの機能

Content Understanding は Speech Analytics ソリューションの基礎として機能し、オーディオファイルに対して次の機能を有効にします。

コンテンツ抽出

オーディオコンテンツ抽出では、オーディオファイルが文字起こしされます。話者ごとにトランスクリプトを分離し、ロール検出などのオプション機能を使用して、話者を意味のあるロールにマップできます。また、単語レベルのタイムスタンプなどの詳細な結果を要求することもできます。

言語処理

Content Understanding では、文字起こし中の言語処理のさまざまなオプションがサポートされています。

次の表に、 locales 構成で制御されるオプションの概要を示します。

ロケールの設定	ファイルサイズ	サポートされている処理	サポート対象のロケール	結果の待機時間
auto または空	≤ 300 MB または ≤ 2 時間	多言語文字起こし	`de-DE`、 `en-AU`、 `en-CA`、 `en-GB`、 `en-IN`、 `en-US`、 `es-ES`、 `es-MX`、 `fr-CA`、 `fr-FR`、 `hi-IN`、 `it-IT`、 `ja-JP`、 `ko-KR`、 `zh-CN`	ほぼリアルタイム
auto または空	> 300 MB および > 2 時間、≤ 4 時間	多言語文字起こし	`en-US`、`es-ES`、`es-MX`、`fr-FR`、`hi-IN`、`it-IT`、`ja-JP`、`ko-KR`、`pt-BR`、`zh-CN`	レギュラー
単一ロケール	≤ 1 GB または ≤ 4 時間	単一言語の文字起こし	サポートされているすべてのロケール [^1]	• ≤ 300 MB または ≤ 2 時間: ほぼリアルタイム • > 300 MB および > 2 時間、≤ 4 時間: 通常
複数のロケール	≤ 1 GB または ≤ 4 時間	単一言語の文字起こし (言語検出に基づく)	サポートされているすべてのロケール [^1]	• ≤ 300 MB または ≤ 2 時間: ほぼリアルタイム • > 300 MB および > 2 時間、≤ 4 時間: 通常

[^1]: Content Understanding では、 Foundry Tools Speech のテキスト言語に対する Azure Speech の完全なセットがサポートされています。高速文字起こしがサポートされている言語や、ファイル≤ 300 MB または≤ 2 時間の場合、文字起こし時間が大幅に短縮されます。

文字起こし。会話型オーディオを WebVTT 形式の検索および分析が可能なテキストベースのトランスクリプトに変換します。文字起こしデータからカスタマイズ可能なフィールドを生成できます。要求に応じて、文レベルおよび単語レベルのタイムスタンプが使用可能です。
ダイアライゼーション。会話内の話者を区別し、トランスクリプトの各部分を特定の話者に帰属させます。
話者の役割検出。コンタクトセンターの通話データ内のエージェントと顧客の役割を識別します。
多言語文字起こし。多言語トランスクリプトを生成し、フレーズごとに言語とロケールを適用します。この機能は、言語またはロケールを指定しない場合、または locales が auto に設定されている場合に有効になります。

注

多言語文字起こしを使用すると、サポートされていないロケールを持つファイルが、サポートされている最も近いロケールに基づいて結果を生成する可能性があります。これは正しくない可能性があります。この動作は予期されています。

文字起こしの品質の問題を回避するには、多言語文字起こしを使用しない場合に locales を構成します。

言語検出。優先言語またはロケールを自動的に検出し、それを使用してファイルを文字起こしします。言語検出を有効にするには、複数のロケールを指定します。

フィールドの抽出

フィールド抽出を使用して、オーディオファイルから構造化データ (通話ログからの要約、センチメント、メンションされたエンティティなど) を抽出できます。用意されているアナライザーテンプレートをカスタマイズするか、一からアナライザーを作成して開始することができます。

主な利点

高度なオーディオ機能(以下を含む):

カスタマイズ可能なデータ抽出。フィールドスキーマを変更して、特定のニーズに応じた出力の調整を行い、正確なデータの生成と抽出を可能にします。
生成モデル。生成 AI モデルを使用して、自然言語で抽出するコンテンツを記述すると、サービスによって出力が生成されます。
統合された前処理。トランスクリプション、ダイアライズ、ロール検出などの組み込みの前処理手順を利用すると、生成モデルに豊富なコンテキストが提供されます。
シナリオ適応性。カスタムフィールドを生成し、関連するデータを抽出して、要件に合わせてサービスを調整します。

事前構築済みのオーディオアナライザー

事前構築済みのアナライザーを使用すると、アナライザーのセットアップを作成しなくても、オーディオコンテンツに貴重な分析情報を抽出できます。

すべてのオーディオアナライザーは、話者で区切られた標準的な WEBVTT 形式でトランスクリプトを生成します。

注

事前構築済みのアナライザーは、多言語の文字起こしを使用するように設定され、 returnDetails 有効になります。

次の事前構築済みアナライザーを使用できます。

呼び出し後の分析 (事前構築済みの callCenter)。通話記録を分析して生成する:

話者ロールの検出結果を含む会話トランスクリプト。
通話の概要。
感情を呼び出します。
記載されている上位 5 つの記事。
記載されている企業の一覧。
メンションされているユーザー (名前とタイトルまたはロール) の一覧。
関連する通話カテゴリの一覧。

結果の例:

{
  "id": "bc36da27-004f-475e-b808-8b8aead3b566",
  "status": "Succeeded",
  "result": {
    "analyzerId": "prebuilt-callCenter",
    "apiVersion": "2025-05-01-preview",
    "createdAt": "2025-05-06T22:53:28Z",
    "stringEncoding": "utf8",
    "warnings": [],
    "contents": [
      {
        "markdown": "# Audio: 00:00.000 => 00:32.183\n\nTranscript\n```\nWEBVTT\n\n00:00.080 --> 00:00.640\n<v Agent>Good day.\n\n00:00.960 --> 00:02.240\n<v Agent>Welcome to Contoso.\n\n00:02.560 --> 00:03.760\n<v Agent>My name is John Doe.\n\n00:03.920 --> 00:05.120\n<v Agent>How can I help you today?\n\n00:05.440 --> 00:06.320\n<v Agent>Yes, good day.\n\n00:06.720 --> 00:08.160\n<v Agent>My name is Maria Smith.\n\n00:08.560 --> 00:11.280\n<v Agent>I would like to inquire about my current point balance.\n\n00:11.680 --> 00:12.560\n<v Agent>No problem.\n\n00:12.880 --> 00:13.920\n<v Agent>I am happy to help.\n\n00:14.240 --> 00:16.720\n<v Agent>I need your date of birth to confirm your identity.\n\n00:17.120 --> 00:19.600\n<v Agent>It is April 19th, 1988.\n\n00:20.000 --> 00:20.480\n<v Agent>Great.\n\n00:20.800 --> 00:24.160\n<v Agent>Your current point balance is 599 points.\n\n00:24.560 --> 00:26.160\n<v Agent>Do you need any more information?\n\n00:26.480 --> 00:27.200\n<v Agent>No, thank you.\n\n00:27.600 --> 00:28.320\n<v Agent>That was all.\n\n00:28.720 --> 00:29.280\n<v Agent>Goodbye.\n\n00:29.680 --> 00:30.320\n<v Agent>You're welcome.\n\n00:30.640 --> 00:31.840\n<v Agent>Goodbye at Contoso.\n```",
        "fields": {
          "Summary": {
            "type": "string",
            "valueString": "Maria Smith contacted Contoso to inquire about her current point balance. After confirming her identity with her date of birth, the agent, John Doe, informed her that her balance was 599 points. Maria did not require any further assistance, and the call concluded politely."
          },
          "Topics": {
            "type": "array",
            "valueArray": [
              {
                "type": "string",
                "valueString": "Point balance inquiry"
              },
              {
                "type": "string",
                "valueString": "Identity confirmation"
              },
              {
                "type": "string",
                "valueString": "Customer service"
              }
            ]
          },
          "Companies": {
            "type": "array",
            "valueArray": [
              {
                "type": "string",
                "valueString": "Contoso"
              }
            ]
          },
          "People": {
            "type": "array",
            "valueArray": [
              {
                "type": "object",
                "valueObject": {
                  "Name": {
                    "type": "string",
                    "valueString": "John Doe"
                  },
                  "Role": {
                    "type": "string",
                    "valueString": "Agent"
                  }
                }
              },
              {
                "type": "object",
                "valueObject": {
                  "Name": {
                    "type": "string",
                    "valueString": "Maria Smith"
                  },
                  "Role": {
                    "type": "string",
                    "valueString": "Customer"
                  }
                }
              }
            ]
          },
          "Sentiment": {
            "type": "string",
            "valueString": "Positive"
          },
          "Categories": {
            "type": "array",
            "valueArray": [
              {
                "type": "string",
                "valueString": "Business"
              }
            ]
          }
        },
        "kind": "audioVisual",
        "startTimeMs": 0,
        "endTimeMs": 32183,
        "transcriptPhrases": [
          {
            "speaker": "Agent",
            "startTimeMs": 80,
            "endTimeMs": 640,
            "text": "Good day.",
            "words": []
          }, ...
          {
            "speaker": "Customer",
            "startTimeMs": 5440,
            "endTimeMs": 6320,
            "text": "Yes, good day.",
            "words": []
          }, ...
        ]
      }
    ]
  }
}

会話分析 (プレビルトオーディオサーチ)。記録を分析して生成する:

会話のトランスクリプト
会話の概要

結果の例:

{
  "id": "9624cc49-b6b3-4ce5-be6c-e895d8c2484d",
  "status": "Succeeded",
  "result": {
    "analyzerId": "prebuilt-audioSearch",
    "apiVersion": "2025-05-01-preview",
    "createdAt": "2025-05-06T23:00:12Z",
    "stringEncoding": "utf8",
    "warnings": [],
    "contents": [
      {
        "markdown": "# Audio: 00:00.000 => 00:32.183\n\nTranscript\n```\nWEBVTT\n\n00:00.080 --> 00:00.640\n<v Speaker 1>Good day.\n\n00:00.960 --> 00:02.240\n<v Speaker 1>Welcome to Contoso.\n\n00:02.560 --> 00:03.760\n<v Speaker 1>My name is John Doe.\n\n00:03.920 --> 00:05.120\n<v Speaker 1>How can I help you today?\n\n00:05.440 --> 00:06.320\n<v Speaker 1>Yes, good day.\n\n00:06.720 --> 00:08.160\n<v Speaker 1>My name is Maria Smith.\n\n00:08.560 --> 00:11.280\n<v Speaker 1>I would like to inquire about my current point balance.\n\n00:11.680 --> 00:12.560\n<v Speaker 1>No problem.\n\n00:12.880 --> 00:13.920\n<v Speaker 1>I am happy to help.\n\n00:14.240 --> 00:16.720\n<v Speaker 1>I need your date of birth to confirm your identity.\n\n00:17.120 --> 00:19.600\n<v Speaker 1>It is April 19th, 1988.\n\n00:20.000 --> 00:20.480\n<v Speaker 1>Great.\n\n00:20.800 --> 00:24.160\n<v Speaker 1>Your current point balance is 599 points.\n\n00:24.560 --> 00:26.160\n<v Speaker 1>Do you need any more information?\n\n00:26.480 --> 00:27.200\n<v Speaker 1>No, thank you.\n\n00:27.600 --> 00:28.320\n<v Speaker 1>That was all.\n\n00:28.720 --> 00:29.280\n<v Speaker 1>Goodbye.\n\n00:29.680 --> 00:30.320\n<v Speaker 1>You're welcome.\n\n00:30.640 --> 00:31.840\n<v Speaker 1>Goodbye at Contoso.\n```",
        "fields": {
          "Summary": {
            "type": "string",
            "valueString": "Maria Smith contacted Contoso to inquire about her current point balance. John Doe assisted her by confirming her identity using her date of birth and informed her that her balance was 599 points. Maria expressed no further inquiries, and the conversation concluded politely."
          }
        },
        "kind": "audioVisual",
        "startTimeMs": 0,
        "endTimeMs": 32183,
        "transcriptPhrases": [
          {
            "speaker": "Speaker 1",
            "startTimeMs": 80,
            "endTimeMs": 640,
            "text": "Good day.",
            "words": []
          }, ...
          {
            "speaker": "Speaker 2",
            "startTimeMs": 5440,
            "endTimeMs": 6320,
            "text": "Yes, good day.",
            "words": []
          }, ...
        ]
      }
    ]
  }
}

カスタムフィールドを定義することで、事前構築済みのアナライザーをカスタマイズして、出力をよりきめ細かく制御することもできます。カスタマイズを使用すると、生成モデルのフルパワーを使用して、オーディオから深い分析情報を抽出できます。たとえば、カスタマイズを使用すると、次のことができます。

その他の分析情報を生成します。
フィールド抽出出力の言語を制御します。
文字起こし動作を構成します。

会話型ナレッジマイニングソリューションアクセラレータ

Speech Analytics ソリューションのエンド 2 エンドクイックスタートについては、会話ナレッジマイニングソリューションアクセラレータを参照してください。

主要なテーマ、パターン、リレーションシップを特定することで、大量の会話データから実用的な分析情報を得ることができます。このソリューションでは、Microsoft Foundry、Foundry Tools の Azure Content Understanding、Microsoft Foundry Models の Azure OpenAI、Azure AI Search を使用して、非構造化ダイアログを分析し、意味のある構造化された分析情報にマップします。

トピックモデリング、キーフレーズ抽出、音声テキスト変換、対話型チャットなどの機能により、ユーザーはデータを自然に探索し、より迅速かつ情報に基づいた意思決定を行うことができます。

大量の会話データを扱うアナリストは、このソリューションを使用して、自然言語の対話を通じて分析情報を抽出できます。カスタマーサポートの傾向の特定、コンタクトセンターの品質の向上、運用インテリジェンスの明らかになどのタスクをサポートします。これにより、チームはパターンを特定し、フィードバックに基づいて行動し、情報に基づいた意思決定を迅速に行うことができます。

入力の要件

サポートされているオーディオ形式の詳細な一覧については、「サービスの制限とコーデック」を参照してください。

サポートされている言語とリージョン

サポートされているリージョン、言語、ロケールの完全な一覧については、「言語と地域のサポート」を参照してください。

データのプライバシーとセキュリティ

このサービスを使用する開発者は、顧客データに関する Microsoft のポリシーを確認する必要があります。詳細については、「データ、保護、プライバシー」を参照してください。

次のステップ

Microsoft Foundry ポータルでオーディオコンテンツを処理してみてください。
アナライザーテンプレートを使用してオーディオコンテンツを分析する方法について説明します。
コードサンプルを確認します。
- オーディオコンテンツの抽出。
- アナライザーテンプレート。

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-01-31