Foundry Tools の Azure Content Understanding は、非構造化オーディオおよびビデオ コンテンツを高度な形式の GitHub Flavored Markdown に変換し、一時的なリレーションシップとコンテンツ構造を維持して正確なダウンストリーム使用を実現します。 このドキュメントでは、オーディオ入力とビデオ入力の両方について、各オーディオビジュアル コンテンツ要素をマークダウンで表す方法について説明します。
概要
Content Understanding の Markdown 表現には、タイミング情報とトランスクリプトが含まれます。
マークダウン形式は入力の種類によって異なります。
- オーディオ入力: トランスクリプトのコンテンツ、タイミング、話者の情報に焦点を当てる
- ビデオ入力: すべてのオーディオ要素とキー フレームを含める
サポートされているファイルの種類、ファイル サイズの制限、およびその他の制約の詳細については、 サービスのクォータと制限に関するページを参照してください。
ドキュメントの構造とメタデータ
ヘッダー情報
すべてのオーディオビジュアル コンテンツは、コンテンツの種類、期間、およびサイズ (ビデオの場合) を識別するヘッダーで始まります。
オーディオ ヘッダーの例:
# Audio: 00:00.000 => 04:23.773
ビデオ ヘッダーの例:
# Video: 00:00.000 => 00:42.520
Width: 640
Height: 360
ヘッダーは、次の重要なメタデータを提供します。
- コンテンツ タイプ (
AudioまたはVideo) -
HH:MM:SS.mmm形式での合計期間 - ビデオのサイズ (ピクセル単位) (ビデオのみ)
トランスクリプト表現
WebVTT 形式
トランスクリプトは、標準的な WebVTT (Web ビデオ テキスト トラック) 形式を使用して表され、話者の識別と正確なタイミング情報を保持します。 この形式は、オーディオ入力とビデオ入力の両方で一貫しています。
トランスクリプトの例:
Transcript
WEBVTT
00:02.480 --> 00:04.720
<Speaker 1>Need help redeeming a code on your Xbox?
00:05.440 --> 00:06.840
<Speaker 1>Follow these quick steps.
00:08.960 --> 00:15.680
<Speaker 1>Press the Xbox button on your controller to open the guide while signed into the console with the account you want to apply the code to.
話者識別
話者は、WebVTT トランスクリプト内の <v Speaker N> または <Speaker N> 形式を使用して識別されます。 Content Understanding では、オーディオ トラック内の異なるスピーカーを区別するために、スピーカーのダイアライズが自動的に実行されます。
ビジュアル要素 (ビデオのみ)
キー フレーム
キー フレームは、ビデオ タイムラインから抽出された重要な視覚的瞬間を表します。 これらは、正確なタイムスタンプを持つマークダウン 画像参照として埋め込まれます。
キー フレームの例:
Key Frames
- 00:00.400 
- 00:01.800 
- 00:02.840 
- 00:03.880 
- 00:04.920 
キーフレームのプロパティ
-
HH:MM:SS.mmm形式のタイムスタンプ - 標準マークダウン形式の画像参照
- 重要なビジュアル遷移時に自動的に抽出される
完全なマークダウンの例
ビデオ用に生成された Markdown の完全な例を次に示します。
# Video: 00:00.960 => 00:25.040
Key Frames
- 00:08.040 
- 00:16.360 
- 00:19.480 
Transcript
```
WEBVTT
00:08.960 --> 00:15.680
<Speaker 1>Press the Xbox button on your controller to open the guide while signed into the console with the account you want to apply the code to.
00:16.720 --> 00:18.560
<Speaker 1>From the guide, select Store.
00:19.520 --> 00:25.040
<Speaker 1>Once opened, press the View button on the controller to open the side menu and select Redeem.
```
次のステップ
- Content Understanding Studio でビデオを分析してみてください。
- Content Understanding Studio のクイック スタートを確認してください。
- アナライザー テンプレートを使用したビデオ コンテンツの分析の詳細について説明します。
- コード サンプルを確認する: セグメントを使用したビデオ分析。
- サポートされているすべての要素の詳細については、 完全なオーディオビジュアル要素のドキュメント を確認してください。