次の方法で共有


Microsoft Foundry Models のクォータと制限

この記事では、Azure によって直接販売される Foundry Models のクォータと制限のクイック リファレンスと詳細な説明を提供します。 Foundry モデルの Azure OpenAI に固有のクォータと制限については、「Quotas と Azure OpenAI の制限」を参照してください。

クォータと制限のリファレンス

次のセクションでは、Foundry モデルに適用される既定のクォータと制限に関するクイック ガイドを示します。

リソース制限 (Azure サブスクリプションごと、リージョンごと)

制限名 制限値
Azure サブスクリプションあたりのリージョンあたりの Foundry リソース数 100
リソースあたりの最大プロジェクト数 250
リソースあたりの最大デプロイ数 (Foundry リソース内のモデル デプロイ) 32

レート制限

次の表は、Foundry Models に適用される各レートの制限を一覧にしたものです。

  • 1 分あたりのトークン数
  • 1 分あたりの要求数
  • 同時要求
モデル 1 分あたりのトークン数 1 分あたりの要求数 同時要求数
Azure OpenAIモデル モデルと SKU によって異なります。 Azure OpenAI の 制限事項 を参照してください。 モデルと SKU によって異なります。 Azure OpenAI の 制限事項 を参照してください。 異なる場合があります。 Azure OpenAI の制限を参照してください。
- DeepSeek-R1
- DeepSeek-V3-0324
5,000,000 5,000 300
- Llama 3.3 70B Instruct モデル
- Llama-4-Maverick-17B-128E-Instruct-FP8
- Grok 3
- グロク 3 ミニ
400,000 1,000 300
- Flux.2-Pro 適用されません - 低 (既定値): 15
- 標準: 30
- High (エンタープライズ): 100
適用されません
- Flux-Pro 1.1
- Flux.1-Kontext Pro
適用されません 2 容量ユニット (1 分あたり 6 要求) 適用されません
残りのモデル 400,000 1,000 300

クォータを増やすには:

需要が高いため、制限の引き上げ要求は個別に評価されます。

その他の制限

制限名 制限値
API 要求内のカスタム ヘッダーの最大数1 10

1 つの現在の API では、パイプラインが通過して返すカスタム ヘッダーを最大 10 個使用できます。 このヘッダー数を超えると、リクエストは HTTP 431 エラーになります。 このエラーを解消するには、ヘッダーの数を減らしてください。 将来の API バージョンでは、カスタム ヘッダーは通過しなくなります。 今後のシステム アーキテクチャでは、カスタム ヘッダーに依存しないでください。

使用量レベル

グローバル標準デプロイでは、Azureのグローバル インフラストラクチャを使用して、顧客の推論要求に最適な可用性を備えたデータ センターに顧客トラフィックを動的にルーティングします。 このインフラストラクチャにより、低から中程度のトラフィック量の顧客に対して、より安定したレイテンシが実現されます。 使用量が持続して高いレベルにあるお客様は、応答の待機時間のばらつきが増す可能性があります。

使用制限は、使用量が一定のレベルを超えた場合に、応答待ち時間の変動が大きくなる可能性のある水準を決定します。 お客様の使用量はモデルごとに定義され、これは、特定のテナントのすべてのリージョンのすべてのサブスクリプションのすべてのデプロイで使用されるトークンの合計です。

既定の制限の引き上げを要求する

クォータ増加要求フォームを送信して、Azureによって直接販売されるファウンドリーモデル、Azure OpenAIモデル、およびAnthropicモデルのクォータ増加を申請します。 Anthropic モデルを除き、 パートナーやコミュニティのモデル ではクォータの引き上げはサポートされません。

クォータの引き上げ要求は受け取った順序で処理され、優先度は既存のクォータ割り当てを積極的に使用している顧客に適用されます。 この条件を満たしていない要求は拒否される可能性があります。

レート制限内で運用するための一般的なベスト プラクティス

レート制限に関連する問題を最小限に抑えるために、次の手法を使用してください。

  • アプリケーションで再試行ロジックを実装します。
  • ワークロードが急激に変化しないようにします。 ワークロードは徐々に増やします。
  • さまざまな負荷増加パターンをテストします。
  • デプロイに割り当てられているクォータを増やします。 必要に応じて、別のデプロイからクォータを移動します。

クライアント側のタイムアウトの設定

次のガイダンスに基づいて、クライアント側のタイムアウトを明示的に設定します。

明示的に設定しない場合、クライアント側のタイムアウトは使用されるライブラリに従って存在し、上記と同じ制限ではない可能性があります。

  • 推論モデル (要約された応答を生成する前に中間推論トークンを生成するモデル): 最大 29 分。
  • 非推論モデル:
    • ストリーミングの場合、最大 60 秒。
    • ストリーミング以外の要求の場合は、最大 29 分です。

ここで 29 分は、すべての要求が 29 分かかるという意味ではなく、コンテキスト トークン、生成されたトークン、キャッシュ ヒット率に応じて、要求に最大 29 分かかる場合があります。

トラフィック パターンに合わせて、これらの値より小さいタイムアウトを設定します。

ストリーミング要求を含む推論モデルでは、すべての推論トークンが最初に生成され、その後、最初の応答トークンがユーザーに送信される前に要約されます。

推論作業パラメーターを変更して、プロセスで生成される推論トークンの数を制御できます。

トラブルシューティング

症状 原因 解決策
HTTP 429 要求が多すぎます 1 分あたりのトークン数または 1 分あたりの要求数の制限を超えました 指数バックオフを使用して再試行ロジックを実装します。 Retry-After ヘッダー値を使用します。
HTTP 431 要求ヘッダー フィールドが大きすぎる 10 を超えるカスタム ヘッダーが送信されました カスタム ヘッダーを 10 以下に減らします。
[クォータ] ページに 0 が表示される サブスクリプションまたはリージョンのクォータが完全に割り当てられている 未使用のクォータを別のデプロイから移動します。 制限を引き上げるには、 クォータの引き上げを要求します。
指定の地域ではモデルが利用できません 選択したリージョンでモデルがデプロイまたはサポートされていない モデルの可用性を確認し、使用可能なリージョンを選択します。