Microsoft Foundry Models のクォータと制限

この記事では、Azure によって直接販売される Foundry Models のクォータと制限のクイックリファレンスと詳細な説明を提供します。 Foundry モデルの Azure OpenAI に固有のクォータと制限については、「Quotas と Azure OpenAI の制限」を参照してください。

クォータと制限のリファレンス

次のセクションでは、Foundry モデルに適用される既定のクォータと制限に関するクイックガイドを示します。

リソース制限 (Azure サブスクリプションごと、リージョンごと)

制限名	制限値
Azure サブスクリプションあたりのリージョンあたりの Foundry リソース数	100
リソースあたりの最大プロジェクト数	250
リソースあたりの最大デプロイ数 (Foundry リソース内のモデルデプロイ)	32

レート制限

次の表は、Foundry Models に適用される各レートの制限を一覧にしたものです。

1 分あたりのトークン数
1 分あたりの要求数
同時要求

モデル	1 分あたりのトークン数	1 分あたりの要求数	同時要求数
Azure OpenAIモデル	モデルと SKU によって異なります。 Azure OpenAI の制限事項を参照してください。	モデルと SKU によって異なります。 Azure OpenAI の制限事項を参照してください。	異なる場合があります。 Azure OpenAI の制限を参照してください。
- DeepSeek-R1 - DeepSeek-V3-0324	5,000,000	5,000	300
- Llama 3.3 70B Instruct モデル - Llama-4-Maverick-17B-128E-Instruct-FP8 - Grok 3 - グロク 3 ミニ	400,000	1,000	300
- Flux.2-Pro	適用されません	- 低 (既定値): 15 - 標準: 30 - High (エンタープライズ): 100	適用されません
- Flux-Pro 1.1 - Flux.1-Kontext Pro	適用されません	2 容量ユニット (1 分あたり 6 要求)	適用されません
残りのモデル	400,000	1,000	300

クォータを増やすには:

Azure OpenAI の場合は、Foundry Service: クォータの引き上げ要求を使用して要求を送信します。
その他のモデルについては、「既定の制限の引き上げをリクエストする方法」を参照してください。

需要が高いため、制限の引き上げ要求は個別に評価されます。

その他の制限

制限名	制限値
API 要求内のカスタムヘッダーの最大数¹	10

¹ つの現在の API では、パイプラインが通過して返すカスタムヘッダーを最大 10 個使用できます。このヘッダー数を超えると、リクエストは HTTP 431 エラーになります。このエラーを解消するには、ヘッダーの数を減らしてください。 将来の API バージョンでは、カスタムヘッダーは通過しなくなります。今後のシステムアーキテクチャでは、カスタムヘッダーに依存しないでください。

使用量レベル

グローバル標準デプロイでは、Azureのグローバルインフラストラクチャを使用して、顧客の推論要求に最適な可用性を備えたデータセンターに顧客トラフィックを動的にルーティングします。このインフラストラクチャにより、低から中程度のトラフィック量の顧客に対して、より安定したレイテンシが実現されます。使用量が持続して高いレベルにあるお客様は、応答の待機時間のばらつきが増す可能性があります。

使用制限は、使用量が一定のレベルを超えた場合に、応答待ち時間の変動が大きくなる可能性のある水準を決定します。お客様の使用量はモデルごとに定義され、これは、特定のテナントのすべてのリージョンのすべてのサブスクリプションのすべてのデプロイで使用されるトークンの合計です。

既定の制限の引き上げを要求する

クォータ増加要求フォームを送信して、Azureによって直接販売されるファウンドリーモデル、Azure OpenAIモデル、およびAnthropicモデルのクォータ増加を申請します。 Anthropic モデルを除き、パートナーやコミュニティのモデルではクォータの引き上げはサポートされません。

クォータの引き上げ要求は受け取った順序で処理され、優先度は既存のクォータ割り当てを積極的に使用している顧客に適用されます。この条件を満たしていない要求は拒否される可能性があります。

レート制限内で運用するための一般的なベストプラクティス

レート制限に関連する問題を最小限に抑えるために、次の手法を使用してください。

アプリケーションで再試行ロジックを実装します。
ワークロードが急激に変化しないようにします。ワークロードは徐々に増やします。
さまざまな負荷増加パターンをテストします。
デプロイに割り当てられているクォータを増やします。必要に応じて、別のデプロイからクォータを移動します。

クライアント側のタイムアウトの設定

次のガイダンスに基づいて、クライアント側のタイムアウトを明示的に設定します。

注

明示的に設定しない場合、クライアント側のタイムアウトは使用されるライブラリに従って存在し、上記と同じ制限ではない可能性があります。

推論モデル (要約された応答を生成する前に中間推論トークンを生成するモデル): 最大 29 分。
非推論モデル:
- ストリーミングの場合、最大 60 秒。
- ストリーミング以外の要求の場合は、最大 29 分です。

ここで 29 分は、すべての要求が 29 分かかるという意味ではなく、コンテキストトークン、生成されたトークン、キャッシュヒット率に応じて、要求に最大 29 分かかる場合があります。

トラフィックパターンに合わせて、これらの値より小さいタイムアウトを設定します。

ストリーミング要求を含む推論モデルでは、すべての推論トークンが最初に生成され、その後、最初の応答トークンがユーザーに送信される前に要約されます。

推論作業パラメーターを変更して、プロセスで生成される推論トークンの数を制御できます。

トラブルシューティング

症状	原因	解決策
HTTP 429 要求が多すぎます	1 分あたりのトークン数または 1 分あたりの要求数の制限を超えました	指数バックオフを使用して再試行ロジックを実装します。 `Retry-After` ヘッダー値を使用します。
HTTP 431 要求ヘッダーフィールドが大きすぎる	10 を超えるカスタムヘッダーが送信されました	カスタムヘッダーを 10 以下に減らします。
[クォータ] ページに 0 が表示される	サブスクリプションまたはリージョンのクォータが完全に割り当てられている	未使用のクォータを別のデプロイから移動します。制限を引き上げるには、クォータの引き上げを要求します。
指定の地域ではモデルが利用できません	選択したリージョンでモデルがデプロイまたはサポートされていない	モデルの可用性を確認し、使用可能なリージョンを選択します。

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-03-11