次の方法で共有


Azure Batch の音声テキスト変換

100 を超える言語とバリエーションのテキストにオーディオを正確に文字起こしします。 Azure AI Speech サービスの一部として、バッチ文字起こしを使用すると、ストレージ内で大量のオーディオを文字起こしできます。 Shared Access Signature (SAS) URI を持つオーディオ ファイルを示し、文字起こし結果を非同期的に受信できます。

このコネクタは、次の製品とリージョンで使用できます。

サービス クラス リージョン
コピロット スタジオ Standard 次を除くすべての Power Automate リージョン :
     - 21Vianet が運営する China Cloud
ロジック アプリ Standard 次を除くすべての Logic Apps リージョン :
     - Azure China リージョン
Power Apps Standard 次を除くすべての Power Apps リージョン :
     - 21Vianet が運営する China Cloud
Power Automate Standard 次を除くすべての Power Automate リージョン :
     - 21Vianet が運営する China Cloud
お問い合わせ
名前 Speech Service Power Platform チーム
URL https://docs.microsoft.com/azure/cognitive-services/speech-service/support
Email speechpowerplatform@microsoft.com
コネクタ メタデータ
Publisher Microsoft
Website https://docs.microsoft.com/azure/cognitive-services/speech-service/
プライバシー ポリシー https://privacy.microsoft.com
カテゴリ 人工知能;ウェブサイト

Speech Services バッチ文字起こし API は、提供されたオーディオ コンテンツに対してバッチ音声認識非同期処理を提供するクラウドベースのサービスです。 このコネクタは、これらの関数を Microsoft Power Automate と Power Apps の操作として公開します。

前提条件

続行するには、次のものが必要です。

接続を作成する

コネクタでは、次の認証の種類がサポートされています。

API キー APIキー すべてのリージョン 共有可能
Microsoft Entra ID 統合 Microsoft Entra ID を使用して音声サービスにアクセスします。 Azure Government と米国政府機関 (GCC-High) の Azure Government および国防総省 (DoD) を除くすべてのリージョン 共有不可
Microsoft Entra ID Integrated (Azure Government) Microsoft Entra ID を使用して音声サービスにアクセスします。 Azure Government および米国政府機関の Azure Government および国防総省 (DoD) (GCC-High) のみ 共有不可
既定 [非推奨] このオプションは、明示的な認証の種類がない古い接続に対してのみ行われ、下位互換性のためにのみ提供されます。 すべてのリージョン 共有不可

API キー

認証 ID: keyBasedAuth

適用対象: すべてのリージョン

APIキー

これは共有可能な接続です。 電源アプリが別のユーザーと共有されている場合は、接続も共有されます。 詳細については、 キャンバス アプリのコネクタの概要 - Power Apps |Microsoft Docs

名前 タイプ Description 必須
アカウント キー securestring Speech Service キー 正しい
リージョン 文字列 Speech Service リージョン (例: eastus) 正しい

Microsoft Entra ID 統合

認証 ID: tokenBasedAuth

適用: Azure Government および米国政府機関 (GCC-High) の Azure Government および国防総省 (DoD) を除くすべてのリージョン

Microsoft Entra ID を使用して音声サービスにアクセスします。

これは共有可能な接続ではありません。 電源アプリが別のユーザーと共有されている場合、別のユーザーは新しい接続を明示的に作成するように求められます。

名前 タイプ Description 必須
カスタム サブドメイン 文字列 カスタム サブドメイン エンドポイント URL (例: contoso) 正しい

Microsoft Entra ID Integrated (Azure Government)

認証 ID: tokenBasedAuth

適用: Azure Government および米国政府の Azure Government および国防総省 (DoD) (GCC-High) のみ

Microsoft Entra ID を使用して音声サービスにアクセスします。

これは共有可能な接続ではありません。 電源アプリが別のユーザーと共有されている場合、別のユーザーは新しい接続を明示的に作成するように求められます。

名前 タイプ Description 必須
カスタム サブドメイン 文字列 カスタム サブドメイン エンドポイント URL (例: contoso) 正しい

既定 [非推奨]

適用対象: すべてのリージョン

このオプションは、明示的な認証の種類がない古い接続に対してのみ行われ、下位互換性のためにのみ提供されます。

これは共有可能な接続ではありません。 電源アプリが別のユーザーと共有されている場合、別のユーザーは新しい接続を明示的に作成するように求められます。

名前 タイプ Description 必須
アカウント キー securestring Batch 音声テキスト変換アカウント キー用の Azure Cognitive Services 正しい
リージョン 文字列 Speech Service リージョン (例: eastus) 正しい

調整制限

名前 呼び出し 更新期間
接続ごとの API 呼び出し 100 60 秒

アクション

サポートされているロケールを取得する (V3.1)

オフライン文字起こしでサポートされているロケールの一覧を取得します。

文字起こしの作成 (V3.1)

新しい文字起こしを作成します。

文字起こしの削除 (V3.1)

指定した文字起こしタスクを削除します。

文字起こしの更新 (V3.1)

ID によって識別される文字起こしの変更可能な詳細を更新します。

文字起こしを取得する (V3.1)

指定した ID で識別される文字起こしを取得します。

文字起こしファイルを取得する (V3.1)

文字起こし (ID で識別) から特定のファイル (fileId で識別) を 1 つ取得します。

文字起こしリスト ファイルを取得する (V3.1)

指定された ID で識別される文字起こしのファイルを取得します。

文字起こしリストを取得する (V3.1)

認証済みサブスクリプションの文字起こしの一覧を取得します。

サポートされているロケールを取得する (V3.1)

オフライン文字起こしでサポートされているロケールの一覧を取得します。

戻り値

名前 パス 説明
array of string

文字起こしの作成 (V3.1)

新しい文字起こしを作成します。

パラメーター

名前 キー 必須 説明
contentUrls
contentUrls array of uri

文字起こしするオーディオ ファイルを取得するコンテンツ URL の一覧を指定できます。 最大 1,000 個の URL を使用できます。このプロパティは応答では返されません。

contentContainerUrl
contentContainerUrl uri

または、オーディオ ファイルを含む Azure BLOB コンテナーの URL を指定することもできます。 コンテナーの最大サイズは 5 GB で、BLOB の最大数は 1,0000 個です。BLOB の最大サイズは 2.5 GB です。コンテナー SAS には、'r' (読み取り) アクセス許可と 'l' (リスト) アクセス許可が含まれている必要があります。このプロパティは応答では返されません。

ロケール
locale True string

格納されているデータのロケール。 言語識別が使用されている場合、このロケールは、言語を検出できなかった音声を文字起こしするために使用されます。

ディスプレイ名
displayName True string

オブジェクトの表示名。

モデル
self uri

参照先エンティティの場所。

diarizationEnabled
diarizationEnabled boolean

ダイアライゼーション (話者識別) が要求されるかどうかを示す値。 既定値は falseです。このフィールドのみを true に設定し、改善された diarization システムが有効になっていない場合はDiarizationProperties基本的な diarization システムによって最大 2 つのスピーカーが区別されます。 この場合、Noextra 料金が適用されます。 改善されたダイアライゼーションシステムは、構成可能な範囲のスピーカーにダイアライゼーションを提供します。 DiarizationProperties フィールドで構成できます。 非推奨: 基本的な diarization システムは非推奨となり、次のメジャー バージョンの API のdiarizationEnabled 設定と共に削除されます。

wordLevelTimestampsEnabled
wordLevelTimestampsEnabled boolean

単語レベルのタイムスタンプが要求されるかどうかを示す値。 既定値はfalseです。

displayFormWordLevelTimestampsEnabled
displayFormWordLevelTimestampsEnabled boolean

表示フォームの単語レベルのタイムスタンプが要求されるかどうかを示す値。 既定値は false です。

channels
channels array of integer

要求されたチャネル番号のコレクション。既定のケースでは、チャネル 0 とチャネル 1 が考慮されます。

destinationContainerUrl
destinationContainerUrl uri

要求された宛先コンテナー。### 解説 ###When 宛先コンテナーが timeToLiveと組み合わせて使用されます。変換のメタデータは通常どおり削除されますが、変換の結果を含め、転送先コンテナーに格納されているデータは変更されません。これは、thiscontainer に対する削除アクセス許可は必要ないためです。
自動クリーンアップをサポートするには、コンテナーで BLOB の有効期間を構成するか、BLOB をクリーンアップできる destinationContainerUrlの代わりに "Bring your own Storage (BYOS)" を使用します。

punctuationMode
punctuationMode string

句読点に使用されるモード。

profanityFilterMode
profanityFilterMode string

不適切な表現のフィルター処理のモード。

timeToLive
timeToLive string

文字起こしが完了した後にシステムに保持される期間。 トランスクリプトが完了 (成功または失敗) した後の有効期間に達すると、自動的に期限切れになります。 この値を設定しないか、0 に設定すると、自動削除が無効になります。 サポートされている最も長い期間は 31 日です。期間は ISO 8601 期間としてエンコードされます ("PnYnMnDTnHnMnS"、 https://en.wikipedia.org/wiki/ISO_8601#Durations参照)。

minCount
minCount integer

ダイアライゼーション用のスピーカーの最小数のヒント。 maxSpeakers プロパティ以下である必要があります。

maxCount
maxCount integer

ダイアライゼーションのスピーカーの最大数。 36 未満で、minSpeakers プロパティ以上である必要があります。

candidateLocales
candidateLocales True array of string

言語識別の候補ロケール (例: ["en-US", "de-DE", "es-ES"])。 文字起こしのメイン ロケールを含め、少なくとも 2 個と最大 10 個の候補ロケールがサポートされています。

speechModelMapping
speechModelMapping object

ロケールと音声モデル エンティティの省略可能なマッピング。 ロケールに対してモデルが指定されていない場合は、既定の基本モデルが使用されます。キーは候補ロケールに含まれるロケールである必要があり、値はそれぞれのロケールのモデルのエンティティです。

メール
email string

操作が完了した場合に電子メール通知を送信する電子メール アドレス。この値は、電子メールを正常に送信した後に削除されます。

戻り値

文字起こしの削除 (V3.1)

指定した文字起こしタスクを削除します。

パラメーター

名前 キー 必須 説明
ID (アイディー)
id True uuid

文字起こしの識別子。

文字起こしの更新 (V3.1)

ID によって識別される文字起こしの変更可能な詳細を更新します。

パラメーター

名前 キー 必須 説明
ID (アイディー)
id True uuid

文字起こしの識別子。

self
self True uri

参照先エンティティの場所。

ディスプレイ名
displayName string

オブジェクトの名前。

説明
description string

オブジェクトの説明。

customProperties
customProperties object

このエンティティのカスタム プロパティ。 許可されるキーの最大長は 64 文字、最大値は 256 文字、許可されるエントリの数は 10 です。

戻り値

文字起こしを取得する (V3.1)

指定した ID で識別される文字起こしを取得します。

パラメーター

名前 キー 必須 説明
ID (アイディー)
id True uuid

文字起こしの識別子。

戻り値

文字起こしファイルを取得する (V3.1)

文字起こし (ID で識別) から特定のファイル (fileId で識別) を 1 つ取得します。

パラメーター

名前 キー 必須 説明
ID (アイディー)
id True uuid

文字起こしの識別子。

ファイル ID
fileId True uuid

ファイルの識別子。

Sas の有効期間 (秒単位)
sasValidityInSeconds integer

SAS URL が有効である必要がある期間 (秒単位)。 既定の期間は 12 時間です。 BYOS (https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-encryption-of-data-at-rest#bring-your-own-storage-byos-for-customization-and-logging): 値 0 は、SAS トークンのないプレーン BLOB URI が生成されることを意味します。

戻り値

Body
File

文字起こしリスト ファイルを取得する (V3.1)

指定された ID で識別される文字起こしのファイルを取得します。

パラメーター

名前 キー 必須 説明
ID (アイディー)
id True uuid

文字起こしの識別子。

Sas の有効期間 (秒単位)
sasValidityInSeconds integer

SAS URL が有効である必要がある期間 (秒単位)。 既定の期間は 12 時間です。 BYOS (https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-encryption-of-data-at-rest#bring-your-own-storage-byos-for-customization-and-logging): 値 0 は、SAS トークンのないプレーン BLOB URI が生成されることを意味します。

スキップ
skip integer

スキップされるデータセットの数。

top integer

スキップ後に含まれるデータセットの数。

Filter
filter string

使用可能なファイルのサブセットを選択するためのフィルター式。

  • サポートされているプロパティ: name、createdDateTime、kind。
  • 演算子:
    - eq、ne は、すべてのプロパティでサポートされています。
    - createdDateTime では、gt、ge、lt、le がサポートされています。
    -、またはサポートされていません。
  • 例:filter=name eq 'myaudio.wav.json' and kind eq 'Transcription'

戻り値

文字起こしリストを取得する (V3.1)

認証済みサブスクリプションの文字起こしの一覧を取得します。

パラメーター

名前 キー 必須 説明
スキップ
skip integer

スキップされるデータセットの数。

top integer

スキップ後に含まれるデータセットの数。

Filter
filter string

使用可能な文字起こしのサブセットを選択するためのフィルター式。

  • サポートされるプロパティ: displayName、description、createdDateTime、lastActionDateTime、status、locale。
  • 演算子:
    - eq、ne は、すべてのプロパティでサポートされています。
    - createdDateTime と lastActionDateTime では、gt、ge、lt、le がサポートされています。
    -、またはサポートされていません。
  • 例:filter=createdDateTime gt 2022-02-01T11:00:00Z

戻り値

定義

DiarizationProperties

名前 パス 説明
スピーカー
speakers DiarizationSpeakersProperties

DiarizationSpeakersProperties

名前 パス 説明
minCount
minCount integer

ダイアライゼーション用のスピーカーの最小数のヒント。 maxSpeakers プロパティ以下である必要があります。

maxCount
maxCount integer

ダイアライゼーションのスピーカーの最大数。 36 未満で、minSpeakers プロパティ以上である必要があります。

File

名前 パス 説明
kind
kind FileKind

データの種類。

links
links FileLinks
createdDateTime
createdDateTime date-time

このファイルの作成時刻。タイムスタンプは ISO 8601 の日時形式でエンコードされます ( https://en.wikipedia.org/wiki/ISO_8601#Combined_date_and_time_representationsを参照)。

プロパティ
properties FileProperties
名前
name string

このファイルの名前。

FileKind

データの種類。

データの種類。

名前 パス 説明
contentUrl
contentUrl uri

このファイルの内容を取得する URL。

FileProperties

名前 パス 説明
size
size integer

データのサイズ (バイト単位)。

duration
duration string

このファイルがオーディオ ファイルの場合の期間。 期間は ISO 8601duration としてエンコードされます ("PnYnMnDTnHnMnS"、 https://en.wikipedia.org/wiki/ISO_8601#Durations参照)。

LanguageIdentificationProperties

名前 パス 説明
candidateLocales
candidateLocales array of string

言語識別の候補ロケール (例: ["en-US", "de-DE", "es-ES"])。 文字起こしのメイン ロケールを含め、少なくとも 2 個と最大 10 個の候補ロケールがサポートされています。

speechModelMapping
speechModelMapping object

ロケールと音声モデル エンティティの省略可能なマッピング。 ロケールに対してモデルが指定されていない場合は、既定の基本モデルが使用されます。キーは候補ロケールに含まれるロケールである必要があり、値はそれぞれのロケールのモデルのエンティティです。

PaginatedFiles

名前 パス 説明
values
values array of File

渡されたクエリ パラメーター 'skip' と 'top' またはその既定値によって制限されるエンティティの一覧。 ページ分割を使用してリストを反復処理し、エンティティを並列で削除すると、一部のエンティティが結果でスキップされます。クライアントでリストを作成し、完全なリストのフェッチ後に削除することをお勧めします。

@nextLink
@nextLink uri

使用可能なエンティティが他にある場合は、ページ分割された結果の次のセットへのリンク。それ以外の場合は null。

PaginatedTranscriptions

名前 パス 説明
values
values array of Transcription

渡されたクエリ パラメーター 'skip' と 'top' またはその既定値によって制限されるエンティティの一覧。 ページ分割を使用してリストを反復処理し、エンティティを並列で削除すると、一部のエンティティが結果でスキップされます。クライアントでリストを作成し、完全なリストのフェッチ後に削除することをお勧めします。

@nextLink
@nextLink uri

使用可能なエンティティが他にある場合は、ページ分割された結果の次のセットへのリンク。それ以外の場合は null。

ProfanityFilterMode

不適切な表現のフィルター処理のモード。

不適切な表現のフィルター処理のモード。

PunctuationMode

句読点に使用されるモード。

句読点に使用されるモード。

文字起こし

名前 パス 説明
contentUrls
contentUrls array of uri

文字起こしするオーディオ ファイルを取得するコンテンツ URL の一覧を指定できます。 最大 1,000 個の URL を使用できます。このプロパティは応答では返されません。

contentContainerUrl
contentContainerUrl uri

または、オーディオ ファイルを含む Azure BLOB コンテナーの URL を指定することもできます。 コンテナーの最大サイズは 5 GB で、BLOB の最大数は 1,0000 個です。BLOB の最大サイズは 2.5 GB です。コンテナー SAS には、'r' (読み取り) アクセス許可と 'l' (リスト) アクセス許可が含まれている必要があります。このプロパティは応答では返されません。

ロケール
locale string

格納されているデータのロケール。 言語識別が使用されている場合、このロケールは、言語を検出できなかった音声を文字起こしするために使用されます。

ディスプレイ名
displayName string

オブジェクトの表示名。

モデル
model.self uri

参照先エンティティの場所。

プロパティ
properties TranscriptionProperties

TranscriptionProperties

名前 パス 説明
diarizationEnabled
diarizationEnabled boolean

ダイアライゼーション (話者識別) が要求されるかどうかを示す値。 既定値は falseです。このフィールドのみを true に設定し、改善された diarization システムが有効になっていない場合はDiarizationProperties基本的な diarization システムによって最大 2 つのスピーカーが区別されます。 この場合、Noextra 料金が適用されます。 改善されたダイアライゼーションシステムは、構成可能な範囲のスピーカーにダイアライゼーションを提供します。 DiarizationProperties フィールドで構成できます。 非推奨: 基本的な diarization システムは非推奨となり、次のメジャー バージョンの API のdiarizationEnabled 設定と共に削除されます。

wordLevelTimestampsEnabled
wordLevelTimestampsEnabled boolean

単語レベルのタイムスタンプが要求されるかどうかを示す値。 既定値はfalseです。

displayFormWordLevelTimestampsEnabled
displayFormWordLevelTimestampsEnabled boolean

表示フォームの単語レベルのタイムスタンプが要求されるかどうかを示す値。 既定値は false です。

channels
channels array of integer

要求されたチャネル番号のコレクション。既定のケースでは、チャネル 0 とチャネル 1 が考慮されます。

destinationContainerUrl
destinationContainerUrl uri

要求された宛先コンテナー。### 解説 ###When 宛先コンテナーが timeToLiveと組み合わせて使用されます。変換のメタデータは通常どおり削除されますが、変換の結果を含め、転送先コンテナーに格納されているデータは変更されません。これは、thiscontainer に対する削除アクセス許可は必要ないためです。
自動クリーンアップをサポートするには、コンテナーで BLOB の有効期間を構成するか、BLOB をクリーンアップできる destinationContainerUrlの代わりに "Bring your own Storage (BYOS)" を使用します。

punctuationMode
punctuationMode PunctuationMode

句読点に使用されるモード。

profanityFilterMode
profanityFilterMode ProfanityFilterMode

不適切な表現のフィルター処理のモード。

timeToLive
timeToLive string

文字起こしが完了した後にシステムに保持される期間。 トランスクリプトが完了 (成功または失敗) した後の有効期間に達すると、自動的に期限切れになります。 この値を設定しないか、0 に設定すると、自動削除が無効になります。 サポートされている最も長い期間は 31 日です。期間は ISO 8601 期間としてエンコードされます ("PnYnMnDTnHnMnS"、 https://en.wikipedia.org/wiki/ISO_8601#Durations参照)。

diarization
diarization DiarizationProperties
言語識別 -
languageIdentification LanguageIdentificationProperties
メール
email string

操作が完了した場合に電子メール通知を送信する電子メール アドレス。この値は、電子メールを正常に送信した後に削除されます。