Azure API Managementの AI ゲートウェイ

適用対象: すべての API Management レベル

Azure API Managementの AI ゲートウェイは、AI バックエンドを効果的に管理するのに役立つ一連の機能です。これらの機能を使用して、インテリジェントなアプリとワークロードをサポートする AI モデル、エージェント、ツールをセキュリティで保護、スケーリング、監視、管理します。

AI ゲートウェイを使用して、次のようなさまざまな AI エンドポイントを管理します。

Microsoft Foundry および Microsoft Foundry Models における Azure OpenAI の展開
Azure AI モデル推論 API デプロイ
リモート MCP サーバーと A2A エージェント API
Microsoft 以外のプロバイダーによってホストされる OpenAI と互換性のあるモデルとエンドポイント
セルフホステッドモデルとエンドポイント

Azure API Management の AI ゲートウェイ機能をまとめたダイアグラム。

注記

MCP サーバー機能を含む AI ゲートウェイは、API Management の既存の API ゲートウェイを拡張します。これは別のオファリングではありません。関連するガバナンスと開発者向け機能は、Azure API センターにあります。

注記

New! AI ゲートウェイを Microsoft Foundry に直接統合できるようになりました。これにより、Foundry 環境内から AI モデル、エージェント、ツールを管理できます。詳細については、 Microsoft Foundry の AI ゲートウェイに関するセクションを参照してください。

AI ゲートウェイを使用する理由

組織での AI の導入には、いくつかのフェーズが含まれます。

要件の定義と AI モデルの評価
AI モデルとサービスへのアクセスを必要とする AI アプリとエージェントの構築
AIアプリとバックエンドを運用化し、運用環境にデプロイする

AI の導入が成熟するにつれて、特に大企業では、AI ゲートウェイが重要な課題に対処するのに役立ちます。次を実現するのに役立ちます。

AI サービスへのアクセスを認証および承認する
複数の AI エンドポイント間での負荷分散
AI の対話を監視およびログに記録する
複数のアプリケーション間でトークンの使用状況とクォータを管理する
開発者チームのセルフサービスを有効にする

トラフィックの仲介と制御

AI ゲートウェイを使用すると、次のことができます。

OpenAI 互換またはパススルー LLM エンドポイントを API として迅速にインポートして構成する
Microsoft Foundry または Amazon Bedrock などのプロバイダーにデプロイされたモデルを管理する
チャットの完了、応答、およびリアルタイム API を管理する
既存の REST API を MCP サーバーとして公開し、MCP サーバーへのパススルーをサポートする
A2A エージェント API のインポートと管理 (プレビュー)

たとえば、Microsoft Foundry または別のプロバイダーにデプロイされたモデルをオンボードするために、API Management には、マネージド ID を使用してスキーマをインポートし、AI エンドポイントへの認証を設定するための合理化されたウィザードが用意されており、手動で構成する必要はありません。同じユーザーフレンドリなエクスペリエンス内で、API のスケーラビリティ、セキュリティ、および可観測性に関するポリシーを事前に構成できます。

詳細情報:

スケーラビリティとパフォーマンス

生成 AI サービスの主なリソースの 1 つは トークンです。 Microsoft Foundry やその他のプロバイダーは、モデルデプロイのクォータを 1 分あたりのトークン (TPM) として割り当てます。これらのトークンは、社内のさまざまなアプリケーション、開発者チーム、部門など、モデルコンシューマー全体に配布します。

AI サービスバックエンドに接続するアプリが 1 つある場合は、モデルデプロイで直接設定した TPM 制限を使用してトークンの使用量を管理できます。ただし、アプリケーションポートフォリオが拡大すると、1 つまたは複数の AI サービスエンドポイントを呼び出す複数のアプリがある可能性があります。これらのエンドポイントは、従量課金制またはプロビジョニング済みスループットユニット (PTU) インスタンスにすることができます。 1 つのアプリで TPM クォータ全体が使用されていないことを確認し、必要なバックエンドに他のアプリがアクセスできないようにする必要があります。

トークンレートの制限とクォータ

AI サービストークンの使用に基づいて API コンシューマーごとに制限を管理および適用するように、LLM API のトークン制限ポリシーを構成します。このポリシーを使用すると、時間単位、日単位、週単位、月単位、年単位など、指定した期間の TPM 制限またはトークンクォータを設定できます。

API Management での Azure OpenAI Service トークン制限のダイアグラム

このポリシーにより、サブスクリプションキー、送信元 IP アドレス、ポリシー式で定義された任意のキーなど、任意のカウンターキーにトークンベースの制限を柔軟に割り当てることができます。また、このポリシーにより、Azure API Management側でプロンプトトークンの事前計算が可能になり、プロンプトが既に制限を超えている場合に AI サービスバックエンドに対する不要な要求が最小限に抑えられます。

次の基本的な例は、TPM 制限をサブスクリプションキーあたり 500 に設定する方法を示しています。

<llm-token-limit counter-key="@(context.Subscription.Id)" 
    tokens-per-minute="500" estimate-prompt-tokens="false" remaining-tokens-variable-name="remainingTokens">
</llm-token-limit>

詳細情報:

LLM トークン制限ポリシー

セマンティックキャッシュ

セマンティックキャッシュは、前のプロンプトの結果 (完了) をキャッシュし、プロンプトのベクトル近接性を以前の要求と比較して再利用することで、LLM API のパフォーマンスを向上させる手法です。この手法により、AI サービスバックエンドに対する呼び出しの数が減り、エンドユーザーの応答時間が向上し、コストの削減に役立ちます。

API Management で、Azure Managed Redis または RediSearch と互換性のある別の外部キャッシュを使用してセマンティックキャッシュを有効にし、Azure API Managementにオンボードします。 Embeddings API を使用すると、 llm-semantic-cache-store ポリシーと llm-semantic-cache-lookup ポリシーによって、セマンティックに似たプロンプト入力候補がキャッシュから格納および取得されます。このアプローチにより、入力候補を確実に再利用できるため、トークンの消費量が削減され、応答パフォーマンスが向上します。

API Management のセマンティックキャッシュの図。

詳細情報:

Azure API Management
「Azure API ManagementでAI APIのセマンティックキャッシュを有効にする」

API Management のネイティブスケーリング機能

API Management には、ゲートウェイが AI API への大量の要求を処理するのに役立つ、組み込みのスケーリング機能も用意されています。これらの機能には、ゲートウェイ スケールユニット の自動または手動の追加、マルチリージョンデプロイ用のリージョンゲートウェイの追加が含まれます。特定の機能は、API Management サービスレベルによって異なります。

詳細情報:

注記

API Management ではゲートウェイ容量をスケーリングできますが、負荷の増加に対応するために、トラフィックをスケーリングして AI バックエンドに分散する必要もあります ( 回復性に関するセクションを参照)。たとえば、システムの地理的分散をマルチリージョン構成で利用するには、API Management ゲートウェイと同じリージョンにバックエンド AI サービスをデプロイします。

セキュリティと安全性

AI ゲートウェイは、AI API へのアクセスをセキュリティで保護および制御します。 AI ゲートウェイを使用すると、次のことができます。

マネージド ID を使用して Azure の AI サービスに対する認証を行うので、認証に API キーは必要ありません
API Management の資格情報マネージャーを使用して API または MCP サーバーにアクセスするように AI アプリとエージェントの OAuth 承認を構成する
ポリシーを適用して、Azure AI Content Safety

API Management のコンテンツの安全性ポリシーの図。

詳細情報:

Resiliency

インテリジェントアプリケーションを構築する際の課題の 1 つは、アプリケーションがバックエンドの障害に対する回復性を確保し、高負荷を処理できることです。 Azure API Managementで LLM エンドポイントを backends で構成することで、それらの間で負荷を分散できます。また、要求が応答しない場合に、AI サービスバックエンドへの要求の転送を停止するサーキットブレーカールールを定義することもできます。

ロードバランサー

バックエンドロードバランサーでは、ラウンドロビン、重み付け、優先度ベース、セッション対応の負荷分散がサポートされます。特定の要件を満たす負荷分散戦略を定義できます。たとえば、ロードバランサー構成内の優先順位を定義して、特定の Microsoft Foundry エンドポイント (特に PTU インスタンスとして購入されたもの) を最適に使用できるようにします。

API Management でのバックエンド負荷分散の使用を示す図。

サーキットブレーカー

バックエンドサーキットブレーカーは、動的なトリップ期間を備え、バックエンドによって提供される Retry-After ヘッダーからの値を適用します。この機能により、バックエンドの正確でタイムリーな復旧が保証され、優先度の高いバックエンドの使用率が最大化されます。

API Management でのバックエンドサーキットブレーカーの使用を示す図。

詳細情報:

API Management バックエンド

可観測性とガバナンス

API Management には、トークンの使用パターンの追跡、コストの最適化、AI ガバナンスポリシーへの準拠の確保、AI API に関する問題のトラブルシューティングを行う包括的な監視と分析機能が用意されています。この機能を使用してください。

Azure Monitorにプロンプトと完了結果をログに記録する。
Application Insights でコンシューマーごとのトークンメトリックを追跡します。
組み込みの監視ダッシュボードを表示します。
カスタム式を使用してポリシーを構成します。
アプリケーション間でトークンクォータを管理します。

たとえば、llm-emit-token-metric ポリシーを使用してトークンメトリックを出力し、Azure Monitorでメトリックをフィルター処理するために使用できるカスタムディメンションを追加できます。次の例では、(カスタムヘッダーから) クライアント IP アドレス、API ID、およびユーザー ID のディメンションを持つトークンメトリックを出力します。

<llm-emit-token-metric namespace="llm-metrics">
    <dimension name="Client IP" value="@(context.Request.IpAddress)" />
    <dimension name="API ID" value="@(context.Api.Id)" />
    <dimension name="User ID" value="@(context.Request.Headers.GetValueOrDefault("x-user-id", "N/A"))" />
</llm-emit-token-metric>

API Management を使用してトークンメトリックを出力する図。

また、Azure API Managementで LLM API のログ記録を有効にして、トークンの使用状況、プロンプト、および課金と監査の完了を追跡します。ログ記録を有効にした後、Application Insights のログを分析し、API Management の組み込みのダッシュボードを使用して、AI API 全体のトークン消費パターンを表示できます。

詳細情報:

開発者エクスペリエンス

AI ゲートウェイと Azure API Center を使用して、AI API と MCP サーバーの開発とデプロイを効率化します。 API Management の一般的な AI シナリオ向けのわかりやすいインポートおよびポリシー構成エクスペリエンスに加えて、次の機能を利用できます。

Azure API センターの組織カタログに API と MCP サーバーを簡単に登録
API Management および API Center の開発者ポータルを使用したセルフサービス API および MCP サーバーアクセス
カスタマイズのための API Management ポリシーツールキット
AI エージェントの機能を拡張するための API Center Copilot Studio コネクタ

ポータルの API センターの MCP サーバーのスクリーンショット。

詳細情報:

Microsoft Foundry の AI ゲートウェイ (プレビュー)

これで、AI ゲートウェイを Microsoft Foundry に直接統合し、Foundry 環境内から AI トラフィックを管理できるようになりました。 AI ゲートウェイインスタンスを作成するか、Foundry リソースに関連付けると、ゲートウェイを介して Foundry リソースを管理、セキュリティ保護、監視できます。

Models: Azure OpenAI やその他のプロバイダーを含むすべてのモデルデプロイに対して、Foundry インターフェイスでトークンクォータとレート制限を直接構成します。

Agents: Azure、他のクラウド、またはオンプレミスの任意の場所で実行されているエージェントを Foundry コントロールプレーンに登録して、一元化されたインベントリとガバナンスを行います。 Foundry または Application Insights でテレメトリを表示し、調整やコンテンツの安全性などのポリシーを適用します。

ツール: 自動ガバナンスと検出のために、任意の環境でホストされている MCP ツールを登録します。ツールは Foundry インベントリに表示され、エージェントによる使用の準備が整います。

カスタムポリシー、エンタープライズネットワーク、フェデレーションゲートウェイなどの高度なシナリオでは、Foundry で管理されるリソースとの継続性を維持しながら、完全なAzure API Management エクスペリエンスにアクセスします。

詳細情報:

AI ゲートウェイ機能への早期アクセス

API Management のお客様は、 AI Gateway リリースチャネルを通じて新機能に早期にアクセスできます。このアクセスにより、一般公開前に最新の AI ゲートウェイのイノベーションを試し、製品の形成に役立つフィードバックを提供できます。

詳細情報:

API Management インスタンスのサービス更新設定を構成する

ラボとコードサンプル

アーキテクチャと設計

Blog: Azure API Managementの AI ゲートウェイが Microsoft Foundry
Blog: Azure API Management
Blog: Azure コンテンツの安全性と API Management の統合
トレーニング: 生成型 AI API を管理する
OpenAI エンドポイントのスマート負荷分散

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-03-06

次の方法で共有

Azure API Managementの AI ゲートウェイ

AI ゲートウェイを使用する理由

トラフィックの仲介と制御

スケーラビリティとパフォーマンス

トークン レートの制限とクォータ

セマンティック キャッシュ

API Management のネイティブ スケーリング機能

セキュリティと安全性

Resiliency

ロードバランサー

サーキットブレーカー

可観測性とガバナンス

開発者エクスペリエンス

Microsoft Foundry の AI ゲートウェイ (プレビュー)

AI ゲートウェイ機能への早期アクセス

ラボとコード サンプル

アーキテクチャと設計

関連するコンテンツ

フィードバック

その他のリソース

トークンレートの制限とクォータ

セマンティックキャッシュ

API Management のネイティブスケーリング機能

ラボとコードサンプル