次の方法で共有


Azure API Managementの AI ゲートウェイ

適用対象: すべての API Management レベル

Azure API Managementの AI ゲートウェイは、AI バックエンドを効果的に管理するのに役立つ一連の機能です。 これらの機能を使用して、インテリジェントなアプリとワークロードをサポートする AI モデル、エージェント、ツールをセキュリティで保護、スケーリング、監視、管理します。

AI ゲートウェイを使用して、次のようなさまざまな AI エンドポイントを管理します。

Azure API Management の AI ゲートウェイ機能をまとめたダイアグラム。

注記

MCP サーバー機能を含む AI ゲートウェイは、API Management の既存の API ゲートウェイを拡張します。これは別のオファリングではありません。 関連するガバナンスと開発者向け機能は、Azure API センターにあります。

注記

New! AI ゲートウェイを Microsoft Foundry に直接統合できるようになりました。これにより、Foundry 環境内から AI モデル、エージェント、ツールを管理できます。 詳細については、 Microsoft Foundry の AI ゲートウェイに関 するセクションを参照してください。

AI ゲートウェイを使用する理由

組織での AI の導入には、いくつかのフェーズが含まれます。

  • 要件の定義と AI モデルの評価
  • AI モデルとサービスへのアクセスを必要とする AI アプリとエージェントの構築
  • AIアプリとバックエンドを運用化し、運用環境にデプロイする

AI の導入が成熟するにつれて、特に大企業では、AI ゲートウェイが重要な課題に対処するのに役立ちます。 次を実現するのに役立ちます。

  • AI サービスへのアクセスを認証および承認する
  • 複数の AI エンドポイント間での負荷分散
  • AI の対話を監視およびログに記録する
  • 複数のアプリケーション間でトークンの使用状況とクォータを管理する
  • 開発者チームのセルフサービスを有効にする

トラフィックの仲介と制御

AI ゲートウェイを使用すると、次のことができます。

  • OpenAI 互換またはパススルー LLM エンドポイントを API として迅速にインポートして構成する
  • Microsoft Foundry または Amazon Bedrock などのプロバイダーにデプロイされたモデルを管理する
  • チャットの完了、応答、およびリアルタイム API を管理する
  • 既存の REST API を MCP サーバーとして公開し、MCP サーバーへのパススルーをサポートする
  • A2A エージェント API のインポートと管理 (プレビュー)

たとえば、Microsoft Foundry または別のプロバイダーにデプロイされたモデルをオンボードするために、API Management には、マネージド ID を使用してスキーマをインポートし、AI エンドポイントへの認証を設定するための合理化されたウィザードが用意されており、手動で構成する必要はありません。 同じユーザー フレンドリなエクスペリエンス内で、API のスケーラビリティ、セキュリティ、および可観測性に関するポリシーを事前に構成できます。

Azure portal での Microsoft Foundry モデルのインポートのスクリーンショット。

詳細情報:

スケーラビリティとパフォーマンス

生成 AI サービスの主なリソースの 1 つは トークンです。 Microsoft Foundry やその他のプロバイダーは、モデルデプロイのクォータを 1 分あたりのトークン (TPM) として割り当てます。 これらのトークンは、社内のさまざまなアプリケーション、開発者チーム、部門など、モデル コンシューマー全体に配布します。

AI サービス バックエンドに接続するアプリが 1 つある場合は、モデルデプロイで直接設定した TPM 制限を使用してトークンの使用量を管理できます。 ただし、アプリケーション ポートフォリオが拡大すると、1 つまたは複数の AI サービス エンドポイントを呼び出す複数のアプリがある可能性があります。 これらのエンドポイントは、従量課金制または プロビジョニング済みスループット ユニット (PTU) インスタンスにすることができます。 1 つのアプリで TPM クォータ全体が使用されていないことを確認し、必要なバックエンドに他のアプリがアクセスできないようにする必要があります。

トークン レートの制限とクォータ

AI サービス トークンの使用に基づいて API コンシューマーごとに制限を管理および適用するように、LLM API のトークン制限ポリシーを構成します。 このポリシーを使用すると、時間単位、日単位、週単位、月単位、年単位など、指定した期間の TPM 制限またはトークン クォータを設定できます。

API Management での Azure OpenAI Service トークン制限のダイアグラム

このポリシーにより、サブスクリプション キー、送信元 IP アドレス、ポリシー式で定義された任意のキーなど、任意のカウンター キーにトークン ベースの制限を柔軟に割り当てることができます。 また、このポリシーにより、Azure API Management側でプロンプト トークンの事前計算が可能になり、プロンプトが既に制限を超えている場合に AI サービス バックエンドに対する不要な要求が最小限に抑えられます。

次の基本的な例は、TPM 制限をサブスクリプション キーあたり 500 に設定する方法を示しています。

<llm-token-limit counter-key="@(context.Subscription.Id)" 
    tokens-per-minute="500" estimate-prompt-tokens="false" remaining-tokens-variable-name="remainingTokens">
</llm-token-limit>

詳細情報:

セマンティック キャッシュ

セマンティック キャッシュは、前のプロンプトの結果 (完了) をキャッシュし、プロンプトのベクトル近接性を以前の要求と比較して再利用することで、LLM API のパフォーマンスを向上させる手法です。 この手法により、AI サービス バックエンドに対する呼び出しの数が減り、エンド ユーザーの応答時間が向上し、コストの削減に役立ちます。

API Management で、Azure Managed Redis または RediSearch と互換性のある別の外部キャッシュを使用してセマンティック キャッシュを有効にし、Azure API Managementにオンボードします。 Embeddings API を使用すると、 llm-semantic-cache-store ポリシーと llm-semantic-cache-lookup ポリシーによって、セマンティックに似たプロンプト入力候補がキャッシュから格納および取得されます。 このアプローチにより、入力候補を確実に再利用できるため、トークンの消費量が削減され、応答パフォーマンスが向上します。

API Management のセマンティック キャッシュの図。

詳細情報:

  • Azure API Management
  • 「Azure API ManagementでAI APIのセマンティック キャッシュを有効にする」

API Management のネイティブ スケーリング機能

API Management には、ゲートウェイが AI API への大量の要求を処理するのに役立つ、組み込みのスケーリング機能も用意されています。 これらの機能には、ゲートウェイ スケール ユニット の自動または手動の追加、マルチリージョンデプロイ用のリージョン ゲートウェイの追加が含まれます。 特定の機能は、API Management サービス レベルによって異なります。

詳細情報:

注記

API Management ではゲートウェイ容量をスケーリングできますが、負荷の増加に対応するために、トラフィックをスケーリングして AI バックエンドに分散する必要もあります ( 回復性 に関するセクションを参照)。 たとえば、システムの地理的分散をマルチリージョン構成で利用するには、API Management ゲートウェイと同じリージョンにバックエンド AI サービスをデプロイします。

セキュリティと安全性

AI ゲートウェイは、AI API へのアクセスをセキュリティで保護および制御します。 AI ゲートウェイを使用すると、次のことができます。

  • マネージド ID を使用して Azure の AI サービスに対する認証を行うので、認証に API キーは必要ありません
  • API Management の資格情報マネージャーを使用して API または MCP サーバーにアクセスするように AI アプリとエージェントの OAuth 承認を構成する
  • ポリシーを適用して、Azure AI Content Safety

API Management のコンテンツ の安全性ポリシーの図。

詳細情報:

Resiliency

インテリジェント アプリケーションを構築する際の課題の 1 つは、アプリケーションがバックエンドの障害に対する回復性を確保し、高負荷を処理できることです。 Azure API Managementで LLM エンドポイントを backends で構成することで、それらの間で負荷を分散できます。 また、要求が応答しない場合に、AI サービス バックエンドへの要求の転送を停止するサーキット ブレーカー ルールを定義することもできます。

ロードバランサー

バックエンド ロード バランサー では、ラウンド ロビン、重み付け、優先度ベース、セッション対応の負荷分散がサポートされます。 特定の要件を満たす負荷分散戦略を定義できます。 たとえば、ロード バランサー構成内の優先順位を定義して、特定の Microsoft Foundry エンドポイント (特に PTU インスタンスとして購入されたもの) を最適に使用できるようにします。

API Management でのバックエンド負荷分散の使用を示す図。

サーキットブレーカー

バックエンド サーキットブレーカー は、動的なトリップ期間を備え、バックエンドによって提供される Retry-After ヘッダーからの値を適用します。 この機能により、バックエンドの正確でタイムリーな復旧が保証され、優先度の高いバックエンドの使用率が最大化されます。

API Management でのバックエンド サーキット ブレーカーの使用を示す図。

詳細情報:

可観測性とガバナンス

API Management には、トークンの使用パターンの追跡、コストの最適化、AI ガバナンス ポリシーへの準拠の確保、AI API に関する問題のトラブルシューティングを行う包括的な監視と分析機能が用意されています。 この機能を使用してください。

  • Azure Monitorにプロンプトと完了結果をログに記録する。
  • Application Insights でコンシューマーごとのトークン メトリックを追跡します。
  • 組み込みの監視ダッシュボードを表示します。
  • カスタム式を使用してポリシーを構成します。
  • アプリケーション間でトークン クォータを管理します。

たとえば、llm-emit-token-metric ポリシーを使用してトークン メトリックを出力し、Azure Monitorでメトリックをフィルター処理するために使用できるカスタム ディメンションを追加できます。 次の例では、(カスタム ヘッダーから) クライアント IP アドレス、API ID、およびユーザー ID のディメンションを持つトークン メトリックを出力します。

<llm-emit-token-metric namespace="llm-metrics">
    <dimension name="Client IP" value="@(context.Request.IpAddress)" />
    <dimension name="API ID" value="@(context.Api.Id)" />
    <dimension name="User ID" value="@(context.Request.Headers.GetValueOrDefault("x-user-id", "N/A"))" />
</llm-emit-token-metric>

API Management を使用してトークン メトリックを出力する図。

また、Azure API Managementで LLM API のログ記録を有効にして、トークンの使用状況、プロンプト、および課金と監査の完了を追跡します。 ログ記録を有効にした後、Application Insights のログを分析し、API Management の組み込みのダッシュボードを使用して、AI API 全体のトークン消費パターンを表示できます。

ポータルの言語モデル API の分析のスクリーンショット。

詳細情報:

開発者エクスペリエンス

AI ゲートウェイと Azure API Center を使用して、AI API と MCP サーバーの開発とデプロイを効率化します。 API Management の一般的な AI シナリオ向けのわかりやすいインポートおよびポリシー構成エクスペリエンスに加えて、次の機能を利用できます。

  • Azure API センターの組織カタログに API と MCP サーバーを簡単に登録
  • API Management および API Center の開発者ポータルを使用したセルフサービス API および MCP サーバー アクセス
  • カスタマイズのための API Management ポリシー ツールキット
  • AI エージェントの機能を拡張するための API Center Copilot Studio コネクタ

ポータルの API センターの MCP サーバーのスクリーンショット。

詳細情報:

Microsoft Foundry の AI ゲートウェイ (プレビュー)

これで、AI ゲートウェイを Microsoft Foundry に直接統合し、Foundry 環境内から AI トラフィックを管理できるようになりました。 AI ゲートウェイ インスタンスを作成するか、Foundry リソースに関連付けると、ゲートウェイを介して Foundry リソースを管理、セキュリティ保護、監視できます。

Models: Azure OpenAI やその他のプロバイダーを含むすべてのモデル デプロイに対して、Foundry インターフェイスでトークン クォータとレート制限を直接構成します。

Agents: Azure、他のクラウド、またはオンプレミスの任意の場所で実行されているエージェントを Foundry コントロール プレーンに登録して、一元化されたインベントリとガバナンスを行います。 Foundry または Application Insights でテレメトリを表示し、調整やコンテンツの安全性などのポリシーを適用します。

ツール: 自動ガバナンスと検出のために、任意の環境でホストされている MCP ツールを登録します。 ツールは Foundry インベントリに表示され、エージェントによる使用の準備が整います。

カスタム ポリシー、エンタープライズ ネットワーク、フェデレーション ゲートウェイなどの高度なシナリオでは、Foundry で管理されるリソースとの継続性を維持しながら、完全なAzure API Management エクスペリエンスにアクセスします。

詳細情報:

AI ゲートウェイ機能への早期アクセス

API Management のお客様は、 AI Gateway リリース チャネルを通じて新機能に早期にアクセスできます。 このアクセスにより、一般公開前に最新の AI ゲートウェイのイノベーションを試し、製品の形成に役立つフィードバックを提供できます。

詳細情報:

ラボとコード サンプル

アーキテクチャと設計