Azure Batch の音声テキスト変換
100 を超える言語とバリエーションのテキストにオーディオを正確に文字起こしします。 Azure AI Speech サービスの一部として、バッチ文字起こしを使用すると、ストレージ内で大量のオーディオを文字起こしできます。 Shared Access Signature (SAS) URI を持つオーディオ ファイルを示し、文字起こし結果を非同期的に受信できます。
このコネクタは、次の製品とリージョンで使用できます。
| サービス | クラス | リージョン |
|---|---|---|
| コピロット スタジオ | Standard | 次を除くすべての Power Automate リージョン : - 21Vianet が運営する China Cloud |
| ロジック アプリ | Standard | 次を除くすべての Logic Apps リージョン : - Azure China リージョン |
| Power Apps | Standard | 次を除くすべての Power Apps リージョン : - 21Vianet が運営する China Cloud |
| Power Automate | Standard | 次を除くすべての Power Automate リージョン : - 21Vianet が運営する China Cloud |
| お問い合わせ | |
|---|---|
| 名前 | Speech Service Power Platform チーム |
| URL | https://docs.microsoft.com/azure/cognitive-services/speech-service/support |
| speechpowerplatform@microsoft.com |
| コネクタ メタデータ | |
|---|---|
| Publisher | Microsoft |
| Website | https://docs.microsoft.com/azure/cognitive-services/speech-service/ |
| プライバシー ポリシー | https://privacy.microsoft.com |
| カテゴリ | 人工知能;ウェブサイト |
Speech Services バッチ文字起こし API は、提供されたオーディオ コンテンツに対してバッチ音声認識非同期処理を提供するクラウドベースのサービスです。 このコネクタは、これらの関数を Microsoft Power Automate と Power Apps の操作として公開します。
前提条件
続行するには、次のものが必要です。
- Azure サブスクリプション - 無料アカウントを作成します
- Azure portal で Speech リソースを作成します。
- Speech リソース キーとリージョンを取得します。 音声リソースがデプロイされたら、[リソースに移動] を選択して、キーを表示および管理します。 Cognitive Services リソースの詳細については、「 リソースのキーを取得する」を参照してください。
- 独自のデータをアップロードするか、パブリック URI または Shared Access Signature (SAS) URI を使用して既存のオーディオ ファイルを使用します。 詳細 については、こちらをご覧ください
接続を作成する
コネクタでは、次の認証の種類がサポートされています。
| API キー | APIキー | すべてのリージョン | 共有可能 |
| Microsoft Entra ID 統合 | Microsoft Entra ID を使用して音声サービスにアクセスします。 | Azure Government と米国政府機関 (GCC-High) の Azure Government および国防総省 (DoD) を除くすべてのリージョン | 共有不可 |
| Microsoft Entra ID Integrated (Azure Government) | Microsoft Entra ID を使用して音声サービスにアクセスします。 | Azure Government および米国政府機関の Azure Government および国防総省 (DoD) (GCC-High) のみ | 共有不可 |
| 既定 [非推奨] | このオプションは、明示的な認証の種類がない古い接続に対してのみ行われ、下位互換性のためにのみ提供されます。 | すべてのリージョン | 共有不可 |
API キー
認証 ID: keyBasedAuth
適用対象: すべてのリージョン
APIキー
これは共有可能な接続です。 電源アプリが別のユーザーと共有されている場合は、接続も共有されます。 詳細については、 キャンバス アプリのコネクタの概要 - Power Apps |Microsoft Docs
| 名前 | タイプ | Description | 必須 |
|---|---|---|---|
| アカウント キー | securestring | Speech Service キー | 正しい |
| リージョン | 文字列 | Speech Service リージョン (例: eastus) | 正しい |
Microsoft Entra ID 統合
認証 ID: tokenBasedAuth
適用: Azure Government および米国政府機関 (GCC-High) の Azure Government および国防総省 (DoD) を除くすべてのリージョン
Microsoft Entra ID を使用して音声サービスにアクセスします。
これは共有可能な接続ではありません。 電源アプリが別のユーザーと共有されている場合、別のユーザーは新しい接続を明示的に作成するように求められます。
| 名前 | タイプ | Description | 必須 |
|---|---|---|---|
| カスタム サブドメイン | 文字列 | カスタム サブドメイン エンドポイント URL (例: contoso) | 正しい |
Microsoft Entra ID Integrated (Azure Government)
認証 ID: tokenBasedAuth
適用: Azure Government および米国政府の Azure Government および国防総省 (DoD) (GCC-High) のみ
Microsoft Entra ID を使用して音声サービスにアクセスします。
これは共有可能な接続ではありません。 電源アプリが別のユーザーと共有されている場合、別のユーザーは新しい接続を明示的に作成するように求められます。
| 名前 | タイプ | Description | 必須 |
|---|---|---|---|
| カスタム サブドメイン | 文字列 | カスタム サブドメイン エンドポイント URL (例: contoso) | 正しい |
既定 [非推奨]
適用対象: すべてのリージョン
このオプションは、明示的な認証の種類がない古い接続に対してのみ行われ、下位互換性のためにのみ提供されます。
これは共有可能な接続ではありません。 電源アプリが別のユーザーと共有されている場合、別のユーザーは新しい接続を明示的に作成するように求められます。
| 名前 | タイプ | Description | 必須 |
|---|---|---|---|
| アカウント キー | securestring | Batch 音声テキスト変換アカウント キー用の Azure Cognitive Services | 正しい |
| リージョン | 文字列 | Speech Service リージョン (例: eastus) | 正しい |
調整制限
| 名前 | 呼び出し | 更新期間 |
|---|---|---|
| 接続ごとの API 呼び出し | 100 | 60 秒 |
アクション
| サポートされているロケールを取得する (V3.1) |
オフライン文字起こしでサポートされているロケールの一覧を取得します。 |
| 文字起こしの作成 (V3.1) |
新しい文字起こしを作成します。 |
| 文字起こしの削除 (V3.1) |
指定した文字起こしタスクを削除します。 |
| 文字起こしの更新 (V3.1) |
ID によって識別される文字起こしの変更可能な詳細を更新します。 |
| 文字起こしを取得する (V3.1) |
指定した ID で識別される文字起こしを取得します。 |
| 文字起こしファイルを取得する (V3.1) |
文字起こし (ID で識別) から特定のファイル (fileId で識別) を 1 つ取得します。 |
| 文字起こしリスト ファイルを取得する (V3.1) |
指定された ID で識別される文字起こしのファイルを取得します。 |
| 文字起こしリストを取得する (V3.1) |
認証済みサブスクリプションの文字起こしの一覧を取得します。 |
サポートされているロケールを取得する (V3.1)
オフライン文字起こしでサポートされているロケールの一覧を取得します。
戻り値
| 名前 | パス | 型 | 説明 |
|---|---|---|---|
|
|
array of string |
文字起こしの作成 (V3.1)
新しい文字起こしを作成します。
パラメーター
| 名前 | キー | 必須 | 型 | 説明 |
|---|---|---|---|---|
|
contentUrls
|
contentUrls | array of uri |
文字起こしするオーディオ ファイルを取得するコンテンツ URL の一覧を指定できます。 最大 1,000 個の URL を使用できます。このプロパティは応答では返されません。 |
|
|
contentContainerUrl
|
contentContainerUrl | uri |
または、オーディオ ファイルを含む Azure BLOB コンテナーの URL を指定することもできます。 コンテナーの最大サイズは 5 GB で、BLOB の最大数は 1,0000 個です。BLOB の最大サイズは 2.5 GB です。コンテナー SAS には、'r' (読み取り) アクセス許可と 'l' (リスト) アクセス許可が含まれている必要があります。このプロパティは応答では返されません。 |
|
|
ロケール
|
locale | True | string |
格納されているデータのロケール。 言語識別が使用されている場合、このロケールは、言語を検出できなかった音声を文字起こしするために使用されます。 |
|
ディスプレイ名
|
displayName | True | string |
オブジェクトの表示名。 |
|
モデル
|
self | uri |
参照先エンティティの場所。 |
|
|
diarizationEnabled
|
diarizationEnabled | boolean |
ダイアライゼーション (話者識別) が要求されるかどうかを示す値。 既定値は |
|
|
wordLevelTimestampsEnabled
|
wordLevelTimestampsEnabled | boolean |
単語レベルのタイムスタンプが要求されるかどうかを示す値。 既定値は |
|
|
displayFormWordLevelTimestampsEnabled
|
displayFormWordLevelTimestampsEnabled | boolean |
表示フォームの単語レベルのタイムスタンプが要求されるかどうかを示す値。 既定値は |
|
|
channels
|
channels | array of integer |
要求されたチャネル番号のコレクション。既定のケースでは、チャネル 0 とチャネル 1 が考慮されます。 |
|
|
destinationContainerUrl
|
destinationContainerUrl | uri |
要求された宛先コンテナー。### 解説 ###When 宛先コンテナーが |
|
|
punctuationMode
|
punctuationMode | string |
句読点に使用されるモード。 |
|
|
profanityFilterMode
|
profanityFilterMode | string |
不適切な表現のフィルター処理のモード。 |
|
|
timeToLive
|
timeToLive | string |
文字起こしが完了した後にシステムに保持される期間。 トランスクリプトが完了 (成功または失敗) した後の有効期間に達すると、自動的に期限切れになります。 この値を設定しないか、0 に設定すると、自動削除が無効になります。 サポートされている最も長い期間は 31 日です。期間は ISO 8601 期間としてエンコードされます ("PnYnMnDTnHnMnS"、 https://en.wikipedia.org/wiki/ISO_8601#Durations参照)。 |
|
|
minCount
|
minCount | integer |
ダイアライゼーション用のスピーカーの最小数のヒント。 maxSpeakers プロパティ以下である必要があります。 |
|
|
maxCount
|
maxCount | integer |
ダイアライゼーションのスピーカーの最大数。 36 未満で、minSpeakers プロパティ以上である必要があります。 |
|
|
candidateLocales
|
candidateLocales | True | array of string |
言語識別の候補ロケール (例: ["en-US", "de-DE", "es-ES"])。 文字起こしのメイン ロケールを含め、少なくとも 2 個と最大 10 個の候補ロケールがサポートされています。 |
|
speechModelMapping
|
speechModelMapping | object |
ロケールと音声モデル エンティティの省略可能なマッピング。 ロケールに対してモデルが指定されていない場合は、既定の基本モデルが使用されます。キーは候補ロケールに含まれるロケールである必要があり、値はそれぞれのロケールのモデルのエンティティです。 |
|
|
メール
|
string |
操作が完了した場合に電子メール通知を送信する電子メール アドレス。この値は、電子メールを正常に送信した後に削除されます。 |
戻り値
- Body
- Transcription
文字起こしの削除 (V3.1)
指定した文字起こしタスクを削除します。
パラメーター
| 名前 | キー | 必須 | 型 | 説明 |
|---|---|---|---|---|
|
ID (アイディー)
|
id | True | uuid |
文字起こしの識別子。 |
文字起こしの更新 (V3.1)
ID によって識別される文字起こしの変更可能な詳細を更新します。
パラメーター
| 名前 | キー | 必須 | 型 | 説明 |
|---|---|---|---|---|
|
ID (アイディー)
|
id | True | uuid |
文字起こしの識別子。 |
|
self
|
self | True | uri |
参照先エンティティの場所。 |
|
ディスプレイ名
|
displayName | string |
オブジェクトの名前。 |
|
|
説明
|
description | string |
オブジェクトの説明。 |
|
|
customProperties
|
customProperties | object |
このエンティティのカスタム プロパティ。 許可されるキーの最大長は 64 文字、最大値は 256 文字、許可されるエントリの数は 10 です。 |
戻り値
- Body
- Transcription
文字起こしを取得する (V3.1)
指定した ID で識別される文字起こしを取得します。
パラメーター
| 名前 | キー | 必須 | 型 | 説明 |
|---|---|---|---|---|
|
ID (アイディー)
|
id | True | uuid |
文字起こしの識別子。 |
戻り値
- Body
- Transcription
文字起こしファイルを取得する (V3.1)
文字起こし (ID で識別) から特定のファイル (fileId で識別) を 1 つ取得します。
パラメーター
| 名前 | キー | 必須 | 型 | 説明 |
|---|---|---|---|---|
|
ID (アイディー)
|
id | True | uuid |
文字起こしの識別子。 |
|
ファイル ID
|
fileId | True | uuid |
ファイルの識別子。 |
|
Sas の有効期間 (秒単位)
|
sasValidityInSeconds | integer |
SAS URL が有効である必要がある期間 (秒単位)。 既定の期間は 12 時間です。 BYOS (https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-encryption-of-data-at-rest#bring-your-own-storage-byos-for-customization-and-logging): 値 0 は、SAS トークンのないプレーン BLOB URI が生成されることを意味します。 |
戻り値
- Body
- File
文字起こしリスト ファイルを取得する (V3.1)
指定された ID で識別される文字起こしのファイルを取得します。
パラメーター
| 名前 | キー | 必須 | 型 | 説明 |
|---|---|---|---|---|
|
ID (アイディー)
|
id | True | uuid |
文字起こしの識別子。 |
|
Sas の有効期間 (秒単位)
|
sasValidityInSeconds | integer |
SAS URL が有効である必要がある期間 (秒単位)。 既定の期間は 12 時間です。 BYOS (https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-encryption-of-data-at-rest#bring-your-own-storage-byos-for-customization-and-logging): 値 0 は、SAS トークンのないプレーン BLOB URI が生成されることを意味します。 |
|
|
スキップ
|
skip | integer |
スキップされるデータセットの数。 |
|
|
上
|
top | integer |
スキップ後に含まれるデータセットの数。 |
|
|
Filter
|
filter | string |
使用可能なファイルのサブセットを選択するためのフィルター式。
|
戻り値
- Body
- PaginatedFiles
文字起こしリストを取得する (V3.1)
認証済みサブスクリプションの文字起こしの一覧を取得します。
パラメーター
| 名前 | キー | 必須 | 型 | 説明 |
|---|---|---|---|---|
|
スキップ
|
skip | integer |
スキップされるデータセットの数。 |
|
|
上
|
top | integer |
スキップ後に含まれるデータセットの数。 |
|
|
Filter
|
filter | string |
使用可能な文字起こしのサブセットを選択するためのフィルター式。
|
戻り値
定義
DiarizationProperties
| 名前 | パス | 型 | 説明 |
|---|---|---|---|
|
スピーカー
|
speakers | DiarizationSpeakersProperties |
DiarizationSpeakersProperties
| 名前 | パス | 型 | 説明 |
|---|---|---|---|
|
minCount
|
minCount | integer |
ダイアライゼーション用のスピーカーの最小数のヒント。 maxSpeakers プロパティ以下である必要があります。 |
|
maxCount
|
maxCount | integer |
ダイアライゼーションのスピーカーの最大数。 36 未満で、minSpeakers プロパティ以上である必要があります。 |
File
| 名前 | パス | 型 | 説明 |
|---|---|---|---|
|
kind
|
kind | FileKind |
データの種類。 |
|
links
|
links | FileLinks | |
|
createdDateTime
|
createdDateTime | date-time |
このファイルの作成時刻。タイムスタンプは ISO 8601 の日時形式でエンコードされます ( https://en.wikipedia.org/wiki/ISO_8601#Combined_date_and_time_representationsを参照)。 |
|
プロパティ
|
properties | FileProperties | |
|
名前
|
name | string |
このファイルの名前。 |
FileKind
FileLinks
| 名前 | パス | 型 | 説明 |
|---|---|---|---|
|
contentUrl
|
contentUrl | uri |
このファイルの内容を取得する URL。 |
FileProperties
| 名前 | パス | 型 | 説明 |
|---|---|---|---|
|
size
|
size | integer |
データのサイズ (バイト単位)。 |
|
duration
|
duration | string |
このファイルがオーディオ ファイルの場合の期間。 期間は ISO 8601duration としてエンコードされます ("PnYnMnDTnHnMnS"、 https://en.wikipedia.org/wiki/ISO_8601#Durations参照)。 |
LanguageIdentificationProperties
| 名前 | パス | 型 | 説明 |
|---|---|---|---|
|
candidateLocales
|
candidateLocales | array of string |
言語識別の候補ロケール (例: ["en-US", "de-DE", "es-ES"])。 文字起こしのメイン ロケールを含め、少なくとも 2 個と最大 10 個の候補ロケールがサポートされています。 |
|
speechModelMapping
|
speechModelMapping | object |
ロケールと音声モデル エンティティの省略可能なマッピング。 ロケールに対してモデルが指定されていない場合は、既定の基本モデルが使用されます。キーは候補ロケールに含まれるロケールである必要があり、値はそれぞれのロケールのモデルのエンティティです。 |
PaginatedFiles
| 名前 | パス | 型 | 説明 |
|---|---|---|---|
|
values
|
values | array of File |
渡されたクエリ パラメーター 'skip' と 'top' またはその既定値によって制限されるエンティティの一覧。 ページ分割を使用してリストを反復処理し、エンティティを並列で削除すると、一部のエンティティが結果でスキップされます。クライアントでリストを作成し、完全なリストのフェッチ後に削除することをお勧めします。 |
|
@nextLink
|
@nextLink | uri |
使用可能なエンティティが他にある場合は、ページ分割された結果の次のセットへのリンク。それ以外の場合は null。 |
PaginatedTranscriptions
| 名前 | パス | 型 | 説明 |
|---|---|---|---|
|
values
|
values | array of Transcription |
渡されたクエリ パラメーター 'skip' と 'top' またはその既定値によって制限されるエンティティの一覧。 ページ分割を使用してリストを反復処理し、エンティティを並列で削除すると、一部のエンティティが結果でスキップされます。クライアントでリストを作成し、完全なリストのフェッチ後に削除することをお勧めします。 |
|
@nextLink
|
@nextLink | uri |
使用可能なエンティティが他にある場合は、ページ分割された結果の次のセットへのリンク。それ以外の場合は null。 |
ProfanityFilterMode
PunctuationMode
文字起こし
| 名前 | パス | 型 | 説明 |
|---|---|---|---|
|
contentUrls
|
contentUrls | array of uri |
文字起こしするオーディオ ファイルを取得するコンテンツ URL の一覧を指定できます。 最大 1,000 個の URL を使用できます。このプロパティは応答では返されません。 |
|
contentContainerUrl
|
contentContainerUrl | uri |
または、オーディオ ファイルを含む Azure BLOB コンテナーの URL を指定することもできます。 コンテナーの最大サイズは 5 GB で、BLOB の最大数は 1,0000 個です。BLOB の最大サイズは 2.5 GB です。コンテナー SAS には、'r' (読み取り) アクセス許可と 'l' (リスト) アクセス許可が含まれている必要があります。このプロパティは応答では返されません。 |
|
ロケール
|
locale | string |
格納されているデータのロケール。 言語識別が使用されている場合、このロケールは、言語を検出できなかった音声を文字起こしするために使用されます。 |
|
ディスプレイ名
|
displayName | string |
オブジェクトの表示名。 |
|
モデル
|
model.self | uri |
参照先エンティティの場所。 |
|
プロパティ
|
properties | TranscriptionProperties |
TranscriptionProperties
| 名前 | パス | 型 | 説明 |
|---|---|---|---|
|
diarizationEnabled
|
diarizationEnabled | boolean |
ダイアライゼーション (話者識別) が要求されるかどうかを示す値。 既定値は |
|
wordLevelTimestampsEnabled
|
wordLevelTimestampsEnabled | boolean |
単語レベルのタイムスタンプが要求されるかどうかを示す値。 既定値は |
|
displayFormWordLevelTimestampsEnabled
|
displayFormWordLevelTimestampsEnabled | boolean |
表示フォームの単語レベルのタイムスタンプが要求されるかどうかを示す値。 既定値は |
|
channels
|
channels | array of integer |
要求されたチャネル番号のコレクション。既定のケースでは、チャネル 0 とチャネル 1 が考慮されます。 |
|
destinationContainerUrl
|
destinationContainerUrl | uri |
要求された宛先コンテナー。### 解説 ###When 宛先コンテナーが |
|
punctuationMode
|
punctuationMode | PunctuationMode |
句読点に使用されるモード。 |
|
profanityFilterMode
|
profanityFilterMode | ProfanityFilterMode |
不適切な表現のフィルター処理のモード。 |
|
timeToLive
|
timeToLive | string |
文字起こしが完了した後にシステムに保持される期間。 トランスクリプトが完了 (成功または失敗) した後の有効期間に達すると、自動的に期限切れになります。 この値を設定しないか、0 に設定すると、自動削除が無効になります。 サポートされている最も長い期間は 31 日です。期間は ISO 8601 期間としてエンコードされます ("PnYnMnDTnHnMnS"、 https://en.wikipedia.org/wiki/ISO_8601#Durations参照)。 |
|
diarization
|
diarization | DiarizationProperties | |
|
言語識別 -
|
languageIdentification | LanguageIdentificationProperties | |
|
メール
|
string |
操作が完了した場合に電子メール通知を送信する電子メール アドレス。この値は、電子メールを正常に送信した後に削除されます。 |