Foundry Tools の Azure Speech は、 Microsoft Foundry リソースを通じて音声テキスト変換、テキスト読み上げ、その他の機能を提供します。 音声を高い精度でテキストに文字起こしし、自然に聞こえるテキスト読み上げ音声を生成し、音声を翻訳し、AI 音声のライブ会話を行うことができます。
カスタム音声を作成したり、ベース ボキャブラリに特定の単語を追加したり、独自のモデルを構築したりできます。 クラウド内、またはコンテナー内のエッジの任意の場所で Azure Speech を実行します。 Speech CLI、Speech SDK、REST API を使用して、アプリケーション、ツール、デバイスの音声を有効にします。
Azure Speech は、多くの 言語、 リージョン、 価格ポイントで使用できます。
シナリオ
音声サービスの一般的なシナリオは次のとおりです。
- キャプション: キャプションを入力オーディオと同期する方法、不適切表現フィルターを適用する方法、部分的な結果を取得する方法、カスタマイズを適用する方法、多言語シナリオで音声言語を識別する方法について学習します。
- オーディオ コンテンツの作成: ニューラル音声を使用して、チャットボットや音声エージェントとの対話をより自然で魅力的なものにし、電子書籍などのデジタル テキストをオーディオブックに変換し、カー ナビゲーション システムを強化します。
- コール センター: 通話をリアルタイムで文字起こししたり、通話のバッチを処理したり、個人情報を編集したり、センチメントなどの分析情報を抽出して、コール センターのユース ケースに役立ちます。
- 言語学習: 言語学習者に発音評価フィードバックを提供し、リモート学習の会話でのリアルタイムの文字起こしをサポートし、ニューラル音声を使用して教材を読み上げます。
- 音声ライブ: アプリケーションとエクスペリエンスのための自然で人間のような会話インターフェイスを作成します。 Voice Live 機能は、人間とエージェントの実装の間の高速で信頼性の高い対話を提供します。
- 音声翻訳: 高品質の音声変換をリアルタイムで生成するか、幅広い言語で翻訳されたビデオを自動的に生成します。
- ビデオアバター作成:責任あるAIプラクティスに従いながら、さまざまなリアルタイムおよびバッチアプリケーション用のリアルで高品質の合成会話アバタービデオを作成します。
Microsoft は、Microsoft Teamsでのキャプション、Microsoft Office 365 でのディクテーション、Microsoft Edge ブラウザーでの音声読み上げなど、多くのシナリオで Azure Speech を使用します。
能力
次のセクションでは、Azure Speech の機能を要約し、詳細についてはリンクを提供します。
音声からテキストへ変換
音声テキスト変換を使用して、オーディオをテキストに変換します。 以下から選択します。
- ストリーミング オーディオのリアルタイム文字起こし。
- 事前に録音されたオーディオ ファイルの高速文字起こし。
- 大量のオーディオを非同期的に処理するためのバッチ文字起こし。
オーディオにアンビエント ノイズが含まれている場合や、業界やドメイン固有の専門用語が含まれている場合、基本モデルでは不十分な場合があります。 このような場合は、音響、言語、および発音データを使用して、カスタム音声モデルを作成してトレーニングできます。 カスタム音声モデルは非公開であり、競争上の優位性を提供できます。
テキスト読み上げ
テキストを音声に変換すると、入力テキストを人間のような合成音声に変換できます。 ディープ ニューラル ネットワークを利用した人間のような音声であるニューラル音声を使用します。 音声合成マークアップ言語 (SSML) を使用して、ピッチ、発音、読み上げ速度、音量などを微調整します。
音声オプションは次のとおりです。
- 標準音声: 非常に自然な、すぐに利用可能な音声から選択できます。 音声ギャラリーで標準音声サンプルを確認し、ビジネス ニーズに適した音声を決定します。
- カスタム音声: 認識可能でブランドや製品に固有の カスタム音声 を作成できます。 カスタム音声はプライベートであり、競争上の利点を提供できます。 カスタム音声サンプルを確認します。
音声合成アバター
テキスト読み上げアバター は、自然な音声で話すフォトリアリスティックな人間のデジタル ビデオにテキストを変換します。 ビデオは、非同期またはリアルタイムで合成できます。 API を使用してテキスト読み上げアバターと統合されたアプリケーションを構築したり、Foundry でテキスト読み上げアバターを使用して、コーディングなしでビデオ コンテンツを作成したりできます。 この機能を使用すると、責任ある AI プラクティスに従いながら、さまざまなアプリケーションに対して、リアルで高品質の合成会話アバター ビデオを配信できます。
アバターの標準音声の範囲から選択できます。 テキスト読み上げアバターの言語サポートは、テキスト読み上げの言語サポートと同じです。
音声翻訳
音声翻訳を使用すると、音声のリアルタイムの多言語翻訳がアプリケーション、ツール、デバイスで可能になります。 この機能は、音声読み上げと音声テキスト変換に使用します。
LLM 音声 (プレビュー)
LLM 音声の大規模言語モデル (LLM) 拡張音声モデルを利用します。 この機能は現在、次のタスクをサポートしています。
-
transcribe:録音済みのオーディオをテキストに変換します。 -
translate: 事前に録音されたオーディオを、指定したターゲット言語のテキストに変換します。
LLM 拡張音声モデルは、品質の向上、深いコンテキスト理解、多言語サポート、およびプロンプト チューニング機能を提供します。 LLM 音声は、高速文字起こしと同じ超高速推論パフォーマンスを共有します。 ユース ケースには、オーディオ ファイルからのキャプションと字幕の生成、会議ノートの要約、コール センターエージェントの支援、ボイスメールの文字起こしなどがあります。
言語識別
言語識別 は、サポートされている言語の一覧と比較することで、音声で話 されている言語を識別するのに役立ちます。 単独で、音声からテキストへの認識、または音声翻訳を使用して、言語識別を使用します。
発音評価
発音評価ではスピーチの発音を評価し、話された音声の正確性と流暢性に関するフィードバックを話者に提供します。 発音評価を使用することで、言語学習者は、自信を持って話し、発表できるように、練習し、即座にフィードバックを得て、発音を向上させることができます。
配信とプレゼンス
Azure Speech 機能は、クラウドまたはオンプレミスにデプロイできます。
コンテナーを使用すると、コンプライアンス、セキュリティ、またはその他の運用上の理由から、サービスをデータに近づけることができます。
ソブリン クラウドでの Azure Speech デプロイは、一部の政府機関とそのパートナーが利用できます。 たとえば、Azure Government クラウドは、米国政府のエンティティとそのパートナーが利用できます。 21Vianet クラウドによって運用される Azure は、中国でビジネスプレゼンスを持つ組織が利用できます。 詳細については、 ソブリン クラウドでの Speech Service に関するページを参照してください。
アプリケーションでの Azure Speech の統合
Speech Studio は、アプリケーションで Azure Speech から機能を構築および統合するための UI ベースのツールのセットです。 Speech Studio では、コードなしのアプローチを使用してプロジェクトを作成します。 その後、次を使用して、アプリケーション内のこれらの資産を参照できます。
Speech SDK。 この SDK では、音声対応アプリケーションの開発に使用できる Azure Speech 機能の多くが公開されています。 Speech SDK は、多くのプログラミング言語と、すべてのプラットフォームで使用できます。
Speech CLI。 このコマンド ライン ツールを使用すると、コードを記述しなくても Azure Speech を使用できます。 Speech SDK の主な機能は、Speech CLI で利用できます。また、Speech CLI では、一部の高度な機能とカスタマイズが簡略化されています。
REST API。 場合によっては、Speech SDK を使用できないか、使用しないでください。 このような場合は、REST API を使用して Azure Speech にアクセスできます。 たとえば、 バッチ文字起こしには REST API を使用します。
コード サンプル
Azure Speech のサンプル コードは、GitHub で入手できます。 これらのサンプルでは、ファイルやストリームからの音声の読み取り、連続的な認識と単発の認識、カスタム モデルの使用など、一般的なシナリオについて説明されています。 SDK と REST のサンプルを見るには、次のリンクを使用してください。
責任ある AI
AI システムには、テクノロジだけでなく、それを使用するユーザー、影響を受けるユーザー、デプロイされる環境も含まれます。 次のリソースを使用して、システムでの責任ある AI の使用とデプロイについて学習します。
音声からテキストへ変換
発音評価
カスタム音声
- 透過性に関するメモとユースケース
- 特性と制限
- 制限付きアクセス
- 合成音声の責任あるデプロイ
- ボイス タレントの開示
- ガイドライン設計の開示
- 設計パターンの開示
- 倫理規定
- データ、プライバシー、セキュリティ
関連コンテンツ
次のクイック スタートは、Azure Speech 機能で利用できます。 各クイック スタートでは、多くの一般的なプログラミング言語の基本的な設計パターンについて説明し、10 分以内にコードを実行します。