Azure Batch の音声テキスト変換

100 を超える言語とバリエーションのテキストにオーディオを正確に文字起こしします。 Azure AI Speech サービスの一部として、バッチ文字起こしを使用すると、ストレージ内で大量のオーディオを文字起こしできます。 Shared Access Signature (SAS) URI を持つオーディオファイルを示し、文字起こし結果を非同期的に受信できます。

このコネクタは、次の製品とリージョンで使用できます。

サービス	クラス	リージョン
コピロットスタジオ	Standard	次を除くすべての Power Automate リージョン : - 21Vianet が運営する China Cloud
ロジックアプリ	Standard	次を除くすべての Logic Apps リージョン : - Azure China リージョン
Power Apps	Standard	次を除くすべての Power Apps リージョン : - 21Vianet が運営する China Cloud
Power Automate	Standard	次を除くすべての Power Automate リージョン : - 21Vianet が運営する China Cloud

お問い合わせ
名前	Speech Service Power Platform チーム
URL	https://docs.microsoft.com/azure/cognitive-services/speech-service/support
Email	speechpowerplatform@microsoft.com

コネクタメタデータ
Publisher	Microsoft
Website	https://docs.microsoft.com/azure/cognitive-services/speech-service/
プライバシーポリシー	https://privacy.microsoft.com
カテゴリ	人工知能;ウェブサイト

Speech Services バッチ文字起こし API は、提供されたオーディオコンテンツに対してバッチ音声認識非同期処理を提供するクラウドベースのサービスです。このコネクタは、これらの関数を Microsoft Power Automate と Power Apps の操作として公開します。

前提条件

続行するには、次のものが必要です。

Azure サブスクリプション - 無料アカウントを作成します
Azure portal で Speech リソースを作成します。
Speech リソースキーとリージョンを取得します。音声リソースがデプロイされたら、[リソースに移動] を選択して、キーを表示および管理します。 Cognitive Services リソースの詳細については、「リソースのキーを取得する」を参照してください。
独自のデータをアップロードするか、パブリック URI または Shared Access Signature (SAS) URI を使用して既存のオーディオファイルを使用します。詳細については、こちらをご覧ください

接続を作成する

コネクタでは、次の認証の種類がサポートされています。


API キー	APIキー	すべてのリージョン	共有可能
Microsoft Entra ID 統合	Microsoft Entra ID を使用して音声サービスにアクセスします。	Azure Government と米国政府機関 (GCC-High) の Azure Government および国防総省 (DoD) を除くすべてのリージョン	共有不可
Microsoft Entra ID Integrated (Azure Government)	Microsoft Entra ID を使用して音声サービスにアクセスします。	Azure Government および米国政府機関の Azure Government および国防総省 (DoD) (GCC-High) のみ	共有不可
既定 [非推奨]	このオプションは、明示的な認証の種類がない古い接続に対してのみ行われ、下位互換性のためにのみ提供されます。	すべてのリージョン	共有不可

API キー

認証 ID: keyBasedAuth

適用対象: すべてのリージョン

APIキー

これは共有可能な接続です。電源アプリが別のユーザーと共有されている場合は、接続も共有されます。詳細については、キャンバスアプリのコネクタの概要 - Power Apps |Microsoft Docs

名前	タイプ	Description	必須
アカウントキー	securestring	Speech Service キー	正しい
リージョン	文字列	Speech Service リージョン (例: eastus)	正しい

Microsoft Entra ID 統合

認証 ID: tokenBasedAuth

適用: Azure Government および米国政府機関 (GCC-High) の Azure Government および国防総省 (DoD) を除くすべてのリージョン

Microsoft Entra ID を使用して音声サービスにアクセスします。

これは共有可能な接続ではありません。電源アプリが別のユーザーと共有されている場合、別のユーザーは新しい接続を明示的に作成するように求められます。

名前	タイプ	Description	必須
カスタムサブドメイン	文字列	カスタムサブドメインエンドポイント URL (例: contoso)	正しい

Microsoft Entra ID Integrated (Azure Government)

認証 ID: tokenBasedAuth

適用: Azure Government および米国政府の Azure Government および国防総省 (DoD) (GCC-High) のみ

Microsoft Entra ID を使用して音声サービスにアクセスします。

名前	タイプ	Description	必須
カスタムサブドメイン	文字列	カスタムサブドメインエンドポイント URL (例: contoso)	正しい

既定 [非推奨]

適用対象: すべてのリージョン

このオプションは、明示的な認証の種類がない古い接続に対してのみ行われ、下位互換性のためにのみ提供されます。

名前	タイプ	Description	必須
アカウントキー	securestring	Batch 音声テキスト変換アカウントキー用の Azure Cognitive Services	正しい
リージョン	文字列	Speech Service リージョン (例: eastus)	正しい

調整制限

名前	呼び出し	更新期間
接続ごとの API 呼び出し	100	60 秒

アクション

サポートされているロケールを取得する (V3.1)	オフライン文字起こしでサポートされているロケールの一覧を取得します。
文字起こしの作成 (V3.1)	新しい文字起こしを作成します。
文字起こしの削除 (V3.1)	指定した文字起こしタスクを削除します。
文字起こしの更新 (V3.1)	ID によって識別される文字起こしの変更可能な詳細を更新します。
文字起こしを取得する (V3.1)	指定した ID で識別される文字起こしを取得します。
文字起こしファイルを取得する (V3.1)	文字起こし (ID で識別) から特定のファイル (fileId で識別) を 1 つ取得します。
文字起こしリストファイルを取得する (V3.1)	指定された ID で識別される文字起こしのファイルを取得します。
文字起こしリストを取得する (V3.1)	認証済みサブスクリプションの文字起こしの一覧を取得します。

サポートされているロケールを取得する (V3.1)

操作 ID:: SupportedTranscriptionLocalesList

オフライン文字起こしでサポートされているロケールの一覧を取得します。

戻り値

名前	パス	型	説明
		array of string

文字起こしの作成 (V3.1)

操作 ID:: CreateTranscriptions

新しい文字起こしを作成します。

パラメーター

名前	キー	必須	型	説明
contentUrls	contentUrls		array of uri	文字起こしするオーディオファイルを取得するコンテンツ URL の一覧を指定できます。最大 1,000 個の URL を使用できます。このプロパティは応答では返されません。
contentContainerUrl	contentContainerUrl		uri	または、オーディオファイルを含む Azure BLOB コンテナーの URL を指定することもできます。コンテナーの最大サイズは 5 GB で、BLOB の最大数は 1,0000 個です。BLOB の最大サイズは 2.5 GB です。コンテナー SAS には、'r' (読み取り) アクセス許可と 'l' (リスト) アクセス許可が含まれている必要があります。このプロパティは応答では返されません。
ロケール	locale	True	string	格納されているデータのロケール。言語識別が使用されている場合、このロケールは、言語を検出できなかった音声を文字起こしするために使用されます。
ディスプレイ名	displayName	True	string	オブジェクトの表示名。
モデル	self		uri	参照先エンティティの場所。
diarizationEnabled	diarizationEnabled		boolean	ダイアライゼーション (話者識別) が要求されるかどうかを示す値。既定値は `false`です。このフィールドのみを true に設定し、改善された diarization システムが有効になっていない場合は`DiarizationProperties`基本的な diarization システムによって最大 2 つのスピーカーが区別されます。この場合、Noextra 料金が適用されます。改善されたダイアライゼーションシステムは、構成可能な範囲のスピーカーにダイアライゼーションを提供します。 `DiarizationProperties` フィールドで構成できます。非推奨: 基本的な diarization システムは非推奨となり、次のメジャーバージョンの API の`diarizationEnabled` 設定と共に削除されます。
wordLevelTimestampsEnabled	wordLevelTimestampsEnabled		boolean	単語レベルのタイムスタンプが要求されるかどうかを示す値。既定値は`false`です。
displayFormWordLevelTimestampsEnabled	displayFormWordLevelTimestampsEnabled		boolean	表示フォームの単語レベルのタイムスタンプが要求されるかどうかを示す値。既定値は `false` です。
channels	channels		array of integer	要求されたチャネル番号のコレクション。既定のケースでは、チャネル 0 とチャネル 1 が考慮されます。
destinationContainerUrl	destinationContainerUrl		uri	要求された宛先コンテナー。### 解説 ###When 宛先コンテナーが `timeToLive`と組み合わせて使用されます。変換のメタデータは通常どおり削除されますが、変換の結果を含め、転送先コンテナーに格納されているデータは変更されません。これは、thiscontainer に対する削除アクセス許可は必要ないためです。自動クリーンアップをサポートするには、コンテナーで BLOB の有効期間を構成するか、BLOB をクリーンアップできる `destinationContainerUrl`の代わりに "Bring your own Storage (BYOS)" を使用します。
punctuationMode	punctuationMode		string	句読点に使用されるモード。
profanityFilterMode	profanityFilterMode		string	不適切な表現のフィルター処理のモード。
timeToLive	timeToLive		string	文字起こしが完了した後にシステムに保持される期間。トランスクリプトが完了 (成功または失敗) した後の有効期間に達すると、自動的に期限切れになります。この値を設定しないか、0 に設定すると、自動削除が無効になります。サポートされている最も長い期間は 31 日です。期間は ISO 8601 期間としてエンコードされます ("PnYnMnDTnHnMnS"、 https://en.wikipedia.org/wiki/ISO_8601#Durations参照)。
minCount	minCount		integer	ダイアライゼーション用のスピーカーの最小数のヒント。 maxSpeakers プロパティ以下である必要があります。
maxCount	maxCount		integer	ダイアライゼーションのスピーカーの最大数。 36 未満で、minSpeakers プロパティ以上である必要があります。
candidateLocales	candidateLocales	True	array of string	言語識別の候補ロケール (例: ["en-US", "de-DE", "es-ES"])。文字起こしのメインロケールを含め、少なくとも 2 個と最大 10 個の候補ロケールがサポートされています。
speechModelMapping	speechModelMapping		object	ロケールと音声モデルエンティティの省略可能なマッピング。ロケールに対してモデルが指定されていない場合は、既定の基本モデルが使用されます。キーは候補ロケールに含まれるロケールである必要があり、値はそれぞれのロケールのモデルのエンティティです。
メール	email		string	操作が完了した場合に電子メール通知を送信する電子メールアドレス。この値は、電子メールを正常に送信した後に削除されます。

戻り値

Body: Transcription

文字起こしの削除 (V3.1)

操作 ID:: DeleteTranscriptions

指定した文字起こしタスクを削除します。

パラメーター

名前	キー	必須	型	説明
ID (アイディー)	id	True	uuid	文字起こしの識別子。

文字起こしの更新 (V3.1)

操作 ID:: UpdateTranscriptions

ID によって識別される文字起こしの変更可能な詳細を更新します。

パラメーター

名前	キー	必須	型	説明
ID (アイディー)	id	True	uuid	文字起こしの識別子。
self	self	True	uri	参照先エンティティの場所。
ディスプレイ名	displayName		string	オブジェクトの名前。
説明	description		string	オブジェクトの説明。
customProperties	customProperties		object	このエンティティのカスタムプロパティ。許可されるキーの最大長は 64 文字、最大値は 256 文字、許可されるエントリの数は 10 です。

戻り値

Body: Transcription

文字起こしを取得する (V3.1)

操作 ID:: GetTranscriptions

指定した ID で識別される文字起こしを取得します。

パラメーター

名前	キー	必須	型	説明
ID (アイディー)	id	True	uuid	文字起こしの識別子。

戻り値

Body: Transcription

文字起こしファイルを取得する (V3.1)

操作 ID:: GetTranscriptionsFile

文字起こし (ID で識別) から特定のファイル (fileId で識別) を 1 つ取得します。

パラメーター

名前	キー	必須	型	説明
ID (アイディー)	id	True	uuid	文字起こしの識別子。
ファイル ID	fileId	True	uuid	ファイルの識別子。
Sas の有効期間 (秒単位)	sasValidityInSeconds		integer	SAS URL が有効である必要がある期間 (秒単位)。既定の期間は 12 時間です。 BYOS (https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-encryption-of-data-at-rest#bring-your-own-storage-byos-for-customization-and-logging): 値 0 は、SAS トークンのないプレーン BLOB URI が生成されることを意味します。

戻り値

Body: File

文字起こしリストファイルを取得する (V3.1)

操作 ID:: TranscriptionsListFiles

指定された ID で識別される文字起こしのファイルを取得します。

パラメーター

名前	キー	必須	型	説明
ID (アイディー)	id	True	uuid	文字起こしの識別子。
Sas の有効期間 (秒単位)	sasValidityInSeconds		integer	SAS URL が有効である必要がある期間 (秒単位)。既定の期間は 12 時間です。 BYOS (https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-encryption-of-data-at-rest#bring-your-own-storage-byos-for-customization-and-logging): 値 0 は、SAS トークンのないプレーン BLOB URI が生成されることを意味します。
スキップ	skip		integer	スキップされるデータセットの数。
上	top		integer	スキップ後に含まれるデータセットの数。
Filter	filter		string	使用可能なファイルのサブセットを選択するためのフィルター式。サポートされているプロパティ: name、createdDateTime、kind。演算子: - eq、ne は、すべてのプロパティでサポートされています。 - createdDateTime では、gt、ge、lt、le がサポートされています。 -、またはサポートされていません。例：`filter=name eq 'myaudio.wav.json' and kind eq 'Transcription'`

戻り値

Body: PaginatedFiles

文字起こしリストを取得する (V3.1)

操作 ID:: TranscriptionsList

認証済みサブスクリプションの文字起こしの一覧を取得します。

パラメーター

名前キー必須型説明

名前	キー	型	説明
スキップ	skip	integer	スキップされるデータセットの数。
上	top	integer	スキップ後に含まれるデータセットの数。
Filter	filter	string	使用可能な文字起こしのサブセットを選択するためのフィルター式。サポートされるプロパティ: displayName、description、createdDateTime、lastActionDateTime、status、locale。演算子: - eq、ne は、すべてのプロパティでサポートされています。 - createdDateTime と lastActionDateTime では、gt、ge、lt、le がサポートされています。 -、またはサポートされていません。例：`filter=createdDateTime gt 2022-02-01T11:00:00Z`

スキップ

skip

integer

スキップされるデータセットの数。

上

top

integer

スキップ後に含まれるデータセットの数。

Filter

filter

string

使用可能な文字起こしのサブセットを選択するためのフィルター式。

サポートされるプロパティ: displayName、description、createdDateTime、lastActionDateTime、status、locale。
演算子:
- eq、ne は、すべてのプロパティでサポートされています。
- createdDateTime と lastActionDateTime では、gt、ge、lt、le がサポートされています。
-、またはサポートされていません。
例：filter=createdDateTime gt 2022-02-01T11:00:00Z

戻り値

Body: PaginatedTranscriptions

定義

DiarizationProperties

名前	パス	型	説明
スピーカー	speakers	DiarizationSpeakersProperties

DiarizationSpeakersProperties

名前	パス	型	説明
minCount	minCount	integer	ダイアライゼーション用のスピーカーの最小数のヒント。 maxSpeakers プロパティ以下である必要があります。
maxCount	maxCount	integer	ダイアライゼーションのスピーカーの最大数。 36 未満で、minSpeakers プロパティ以上である必要があります。

File

名前	パス	型	説明
kind	kind	FileKind	データの種類。
links	links	FileLinks
createdDateTime	createdDateTime	date-time	このファイルの作成時刻。タイムスタンプは ISO 8601 の日時形式でエンコードされます ( https://en.wikipedia.org/wiki/ISO_8601#Combined_date_and_time_representationsを参照)。
プロパティ	properties	FileProperties
名前	name	string	このファイルの名前。

FileKind

データの種類。

: string

FileLinks

名前	パス	型	説明
contentUrl	contentUrl	uri	このファイルの内容を取得する URL。

FileProperties

名前	パス	型	説明
size	size	integer	データのサイズ (バイト単位)。
duration	duration	string	このファイルがオーディオファイルの場合の期間。期間は ISO 8601duration としてエンコードされます ("PnYnMnDTnHnMnS"、 https://en.wikipedia.org/wiki/ISO_8601#Durations参照)。

LanguageIdentificationProperties

名前	パス	型	説明
candidateLocales	candidateLocales	array of string	言語識別の候補ロケール (例: ["en-US", "de-DE", "es-ES"])。文字起こしのメインロケールを含め、少なくとも 2 個と最大 10 個の候補ロケールがサポートされています。
speechModelMapping	speechModelMapping	object	ロケールと音声モデルエンティティの省略可能なマッピング。ロケールに対してモデルが指定されていない場合は、既定の基本モデルが使用されます。キーは候補ロケールに含まれるロケールである必要があり、値はそれぞれのロケールのモデルのエンティティです。

PaginatedFiles

名前	パス	型	説明
values	values	array of File	渡されたクエリパラメーター 'skip' と 'top' またはその既定値によって制限されるエンティティの一覧。ページ分割を使用してリストを反復処理し、エンティティを並列で削除すると、一部のエンティティが結果でスキップされます。クライアントでリストを作成し、完全なリストのフェッチ後に削除することをお勧めします。
@nextLink	@nextLink	uri	使用可能なエンティティが他にある場合は、ページ分割された結果の次のセットへのリンク。それ以外の場合は null。

PaginatedTranscriptions

名前	パス	型	説明
values	values	array of Transcription	渡されたクエリパラメーター 'skip' と 'top' またはその既定値によって制限されるエンティティの一覧。ページ分割を使用してリストを反復処理し、エンティティを並列で削除すると、一部のエンティティが結果でスキップされます。クライアントでリストを作成し、完全なリストのフェッチ後に削除することをお勧めします。
@nextLink	@nextLink	uri	使用可能なエンティティが他にある場合は、ページ分割された結果の次のセットへのリンク。それ以外の場合は null。

ProfanityFilterMode

不適切な表現のフィルター処理のモード。

: string

PunctuationMode

句読点に使用されるモード。

: string

文字起こし

名前	パス	型	説明
contentUrls	contentUrls	array of uri	文字起こしするオーディオファイルを取得するコンテンツ URL の一覧を指定できます。最大 1,000 個の URL を使用できます。このプロパティは応答では返されません。
contentContainerUrl	contentContainerUrl	uri	または、オーディオファイルを含む Azure BLOB コンテナーの URL を指定することもできます。コンテナーの最大サイズは 5 GB で、BLOB の最大数は 1,0000 個です。BLOB の最大サイズは 2.5 GB です。コンテナー SAS には、'r' (読み取り) アクセス許可と 'l' (リスト) アクセス許可が含まれている必要があります。このプロパティは応答では返されません。
ロケール	locale	string	格納されているデータのロケール。言語識別が使用されている場合、このロケールは、言語を検出できなかった音声を文字起こしするために使用されます。
ディスプレイ名	displayName	string	オブジェクトの表示名。
モデル	model.self	uri	参照先エンティティの場所。
プロパティ	properties	TranscriptionProperties

TranscriptionProperties

名前	パス	型	説明
diarizationEnabled	diarizationEnabled	boolean	ダイアライゼーション (話者識別) が要求されるかどうかを示す値。既定値は `false`です。このフィールドのみを true に設定し、改善された diarization システムが有効になっていない場合は`DiarizationProperties`基本的な diarization システムによって最大 2 つのスピーカーが区別されます。この場合、Noextra 料金が適用されます。改善されたダイアライゼーションシステムは、構成可能な範囲のスピーカーにダイアライゼーションを提供します。 `DiarizationProperties` フィールドで構成できます。非推奨: 基本的な diarization システムは非推奨となり、次のメジャーバージョンの API の`diarizationEnabled` 設定と共に削除されます。
wordLevelTimestampsEnabled	wordLevelTimestampsEnabled	boolean	単語レベルのタイムスタンプが要求されるかどうかを示す値。既定値は`false`です。
displayFormWordLevelTimestampsEnabled	displayFormWordLevelTimestampsEnabled	boolean	表示フォームの単語レベルのタイムスタンプが要求されるかどうかを示す値。既定値は `false` です。
channels	channels	array of integer	要求されたチャネル番号のコレクション。既定のケースでは、チャネル 0 とチャネル 1 が考慮されます。
destinationContainerUrl	destinationContainerUrl	uri	要求された宛先コンテナー。### 解説 ###When 宛先コンテナーが `timeToLive`と組み合わせて使用されます。変換のメタデータは通常どおり削除されますが、変換の結果を含め、転送先コンテナーに格納されているデータは変更されません。これは、thiscontainer に対する削除アクセス許可は必要ないためです。自動クリーンアップをサポートするには、コンテナーで BLOB の有効期間を構成するか、BLOB をクリーンアップできる `destinationContainerUrl`の代わりに "Bring your own Storage (BYOS)" を使用します。
punctuationMode	punctuationMode	PunctuationMode	句読点に使用されるモード。
profanityFilterMode	profanityFilterMode	ProfanityFilterMode	不適切な表現のフィルター処理のモード。
timeToLive	timeToLive	string	文字起こしが完了した後にシステムに保持される期間。トランスクリプトが完了 (成功または失敗) した後の有効期間に達すると、自動的に期限切れになります。この値を設定しないか、0 に設定すると、自動削除が無効になります。サポートされている最も長い期間は 31 日です。期間は ISO 8601 期間としてエンコードされます ("PnYnMnDTnHnMnS"、 https://en.wikipedia.org/wiki/ISO_8601#Durations参照)。
diarization	diarization	DiarizationProperties
言語識別 -	languageIdentification	LanguageIdentificationProperties
メール	email	string	操作が完了した場合に電子メール通知を送信する電子メールアドレス。この値は、電子メールを正常に送信した後に削除されます。

次の方法で共有

Azure Batch の音声テキスト変換

前提条件

接続を作成する

API キー

Microsoft Entra ID 統合

Microsoft Entra ID Integrated (Azure Government)

既定 [非推奨]

調整制限

アクション

サポートされているロケールを取得する (V3.1)

戻り値

文字起こしの作成 (V3.1)

パラメーター

戻り値

文字起こしの削除 (V3.1)

パラメーター

文字起こしの更新 (V3.1)

パラメーター

戻り値

文字起こしを取得する (V3.1)

パラメーター

戻り値

文字起こしファイルを取得する (V3.1)

パラメーター

戻り値

文字起こしリスト ファイルを取得する (V3.1)

パラメーター

戻り値

文字起こしリストを取得する (V3.1)

パラメーター

戻り値

定義

DiarizationProperties

DiarizationSpeakersProperties

File

FileKind

FileLinks

FileProperties

LanguageIdentificationProperties

PaginatedFiles

PaginatedTranscriptions

ProfanityFilterMode

PunctuationMode

文字起こし

TranscriptionProperties

文字起こしリストファイルを取得する (V3.1)