次の方法で共有


オーディオビジュアル分析: マークダウン表記

Foundry Tools の Azure Content Understanding は、非構造化オーディオおよびビデオ コンテンツを高度な形式の GitHub Flavored Markdown に変換し、一時的なリレーションシップとコンテンツ構造を維持して正確なダウンストリーム使用を実現します。 このドキュメントでは、オーディオ入力とビデオ入力の両方について、各オーディオビジュアル コンテンツ要素をマークダウンで表す方法について説明します。

概要

Content Understanding の Markdown 表現には、タイミング情報とトランスクリプトが含まれます。

マークダウン形式は入力の種類によって異なります。

  • オーディオ入力: トランスクリプトのコンテンツ、タイミング、話者の情報に焦点を当てる
  • ビデオ入力: すべてのオーディオ要素とキー フレームを含める

サポートされているファイルの種類、ファイル サイズの制限、およびその他の制約の詳細については、 サービスのクォータと制限に関するページを参照してください。

ドキュメントの構造とメタデータ

ヘッダー情報

すべてのオーディオビジュアル コンテンツは、コンテンツの種類、期間、およびサイズ (ビデオの場合) を識別するヘッダーで始まります。

オーディオ ヘッダーの例:

# Audio: 00:00.000 => 04:23.773

ビデオ ヘッダーの例:

# Video: 00:00.000 => 00:42.520
Width: 640
Height: 360

ヘッダーは、次の重要なメタデータを提供します。

  • コンテンツ タイプ (Audio または Video)
  • HH:MM:SS.mmm 形式での合計期間
  • ビデオのサイズ (ピクセル単位) (ビデオのみ)

トランスクリプト表現

WebVTT 形式

トランスクリプトは、標準的な WebVTT (Web ビデオ テキスト トラック) 形式を使用して表され、話者の識別と正確なタイミング情報を保持します。 この形式は、オーディオ入力とビデオ入力の両方で一貫しています。

トランスクリプトの例:

Transcript

WEBVTT

00:02.480 --> 00:04.720
<Speaker 1>Need help redeeming a code on your Xbox?

00:05.440 --> 00:06.840
<Speaker 1>Follow these quick steps.

00:08.960 --> 00:15.680
<Speaker 1>Press the Xbox button on your controller to open the guide while signed into the console with the account you want to apply the code to.

話者識別

話者は、WebVTT トランスクリプト内の <v Speaker N> または <Speaker N> 形式を使用して識別されます。 Content Understanding では、オーディオ トラック内の異なるスピーカーを区別するために、スピーカーのダイアライズが自動的に実行されます。

ビジュアル要素 (ビデオのみ)

キー フレーム

キー フレームは、ビデオ タイムラインから抽出された重要な視覚的瞬間を表します。 これらは、正確なタイムスタンプを持つマークダウン 画像参照として埋め込まれます。

キー フレームの例:

Key Frames
- 00:00.400 ![](keyFrame.400.jpg)
- 00:01.800 ![](keyFrame.1800.jpg)
- 00:02.840 ![](keyFrame.2840.jpg)
- 00:03.880 ![](keyFrame.3880.jpg)
- 00:04.920 ![](keyFrame.4920.jpg)

キーフレームのプロパティ

  • HH:MM:SS.mmm形式のタイムスタンプ
  • 標準マークダウン形式の画像参照
  • 重要なビジュアル遷移時に自動的に抽出される

完全なマークダウンの例

ビデオ用に生成された Markdown の完全な例を次に示します。

# Video: 00:00.960 => 00:25.040

Key Frames
- 00:08.040 ![](keyFrame.8040.jpg)
- 00:16.360 ![](keyFrame.16360.jpg)
- 00:19.480 ![](keyFrame.19480.jpg)

Transcript
```
WEBVTT

00:08.960 --> 00:15.680
<Speaker 1>Press the Xbox button on your controller to open the guide while signed into the console with the account you want to apply the code to.

00:16.720 --> 00:18.560
<Speaker 1>From the guide, select Store.

00:19.520 --> 00:25.040
<Speaker 1>Once opened, press the View button on the controller to open the side menu and select Redeem.
```

次のステップ