Computer Vision モデルをトレーニングするために AutoML を設定する

適用対象:Azure CLI ML 拡張機能 v2 (現行)Python SDK azure-ai-ml v2 (現行)

この記事では、自動 ML を使用して画像データに対してコンピュータービジョンモデルをトレーニングする方法について説明します。モデルは、Azure Machine Learning CLI 拡張機能 v2 または Azure Machine Learning Python SDK v2 を使用してトレーニングできます。

自動 ML では、画像分類、物体検出、インスタンスセグメント化などの Computer Vision タスク用のモデルトレーニングがサポートされています。現在、コンピュータービジョンタスク用の AutoML モデルの作成は、Azure Machine Learning Python SDK を通じてサポートされています。 Azure Machine Learning Studio UI から、結果として得られる実験の試用版、モデル、出力にアクセスできます。画像データに対する Computer Vision タスク用の自動 ML の詳細を確認します。

タスクの種類	AutoML ジョブの構文
画像分類	CLI v2: `image_classification` SDK v2: `image_classification()`
画像分類の複数ラベル	CLI v2: `image_classification_multilabel` SDK v2: `image_classification_multilabel()`
画像の物体検出	CLI v2: `image_object_detection` SDK v2: `image_object_detection()`
画像インスタンスのセグメント化	CLI v2: `image_instance_segmentation` SDK v2: `image_instance_segmentation()`

フィールド	説明
`image_url`	StreamInfo オブジェクトとしてファイルパスが含まれます
`image_details`	画像メタデータ情報は、高さ、幅、および形式で構成されます。このフィールドは省略可能です。
`label`	タスクの種類に基づく画像ラベルの JSON 表現。

パラメーター	Detail
`max_trials`	スイープする試行の最大数のパラメーター。 1 ~ 1,000 の整数である必要があります。特定のモデルアーキテクチャの既定のハイパーパラメーターのみを調べる場合は、このパラメーターを 1 に設定します。既定値は 1 です。
`max_concurrent_trials`	同時に実行される試用版の最大数。指定する場合は、1 ～ 100 の整数にする必要があります。既定値は 1 です。注: 同時試行の数は、指定されたコンピューティングターゲットで使用可能なリソースによって異なります。目的の同時実行可能性のために、使用可能なリソースをコンピューティング先に確保する必要があります。 `max_concurrent_trials` は内部的に `max_trials` に制限されます。たとえば、 `max_concurrent_trials=4` と `max_trials=2`を設定した場合、値は `max_concurrent_trials=2` および `max_trials=2`として内部的に更新されます。
`timeout_minutes`	実験が終了するまでの時間 (分単位)。値を指定しない場合、既定の実験timeout_minutesは 7 日間 (最大 60 日間) です。

タスク	モデルアーキテクチャ	文字列リテラル構文 `default_model`* を * で示す
画像の分類 (複数クラスおよび複数ラベル)	MobileNet: モバイルアプリケーション用の軽量モデル ResNet: 残差ネットワーク ResNeSt: スプリットアテンションネットワーク SE-ResNeXt50: スクイーズおよび励起ネットワーク ViT: Vision Transformer ネットワーク	`mobilenetv2` `resnet18` `resnet34` `resnet50` `resnet101` `resnet152` `resnest50` `resnest101` `seresnext` `vits16r224` (小) `vitb16r224`* (ベース) `vitl16r224` (大)
オブジェクトの検出	YOLOv5: 1 ステージオブジェクト検出モデル Faster RCNN ResNet FPN: 2 ステージオブジェクト検出モデル RetinaNet ResNet FPN: Focal Loss によってクラスの不均衡に対処する注: YOLOv5 モデルのサイズについては、`model_size`ハイパーパラメーターを参照してください。	`yolov5`* `fasterrcnn_resnet18_fpn` `fasterrcnn_resnet34_fpn` `fasterrcnn_resnet50_fpn` `fasterrcnn_resnet101_fpn` `fasterrcnn_resnet152_fpn` `retinanet_resnet50_fpn`
インスタンスのセグメント化	MaskRCNN ResNet FPN	`maskrcnn_resnet18_fpn` `maskrcnn_resnet34_fpn` `maskrcnn_resnet50_fpn`* `maskrcnn_resnet101_fpn` `maskrcnn_resnet152_fpn`

タスク	モデルアーキテクチャ	文字列リテラル構文
画像の分類 (複数クラスおよび複数ラベル)	BEiT ViT DeiT SwinV2	`microsoft/beit-base-patch16-224-pt22k-ft22k` `google/vit-base-patch16-224` `facebook/deit-base-patch16-224` `microsoft/swinv2-base-patch4-window12-192-22k`
物体検出	スパース R-CNN 変形可能な DETR VFNet YOLOF	`mmd-3x-sparse-rcnn_r50_fpn_300-proposals_crop-ms-480-800-3x_coco` `mmd-3x-sparse-rcnn_r101_fpn_300-proposals_crop-ms-480-800-3x_coco` `mmd-3x-deformable-detr_refine_twostage_r50_16xb2-50e_coco` `mmd-3x-vfnet_r50-mdconv-c3-c5_fpn_ms-2x_coco` `mmd-3x-vfnet_x101-64x4d-mdconv-c3-c5_fpn_ms-2x_coco` `mmd-3x-yolof_r50_c5_8x8_1x_coco`
インスタンスのセグメント化	マスク R-CNN	`mmd-3x-mask-rcnn_swin-t-p4-w7_fpn_1x_coco`

サンプリングの種類	AutoML ジョブの構文
ランダムサンプリング	`random`
グリッドサンプリング	`grid`
ベイジアンサンプリング	`bayesian`

早期終了ポリシー	AutoML ジョブの構文
バンディットポリシー	CLI v2: `bandit` SDK v2: `BanditPolicy()`
中央値の停止ポリシー	コマンドラインインターフェース (CLI) v2: `median_stopping` SDK v2: `MedianStoppingPolicy()`
切り捨て選択ポリシー	CLI v2: `truncation_selection` SDK v2: `TruncationSelectionPolicy()`

タスク	影響を受けるデータセット	適用されるデータ拡張手法
画像分類 (多クラスと多ラベル)	トレーニング検証とテスト	ランダムなサイズ変更とトリミング、水平フリップ、カラージッター (明るさ、コントラスト、彩度、色相)、チャネルごとの ImageNet の平均と標準偏差を使用した正規化サイズ変更、中心のトリミング、正規化
物体検出、インスタンスのセグメント化	トレーニング検証とテスト	境界ボックス周囲のランダムなトリミング、展開、左右反転、正規化、サイズ変更正規化、サイズ変更
yolov5 を使用した物体検出	トレーニング検証とテスト	モザイク、ランダムアフィン (回転、平行移動、スケーリング、傾斜)、左右反転レターボックスのサイズ変更

タスク	パラメーター名	既定値
画像分類 (多クラスと多ラベル)	`valid_resize_size` `valid_crop_size`	256 224
オブジェクトの検出	`min_size` `max_size` `box_score_thresh` `nms_iou_thresh` `box_detections_per_img`	600 1333 0.3 0.5 100
`yolov5` を使用した物体検出	`img_size` `model_size` `box_score_thresh` `nms_iou_thresh`	640 中間 0.1 0.5
インスタンスのセグメント化	`min_size` `max_size` `box_score_thresh` `nms_iou_thresh` `box_detections_per_img` `mask_pixel_score_threshold` `max_number_of_polygon_points` `export_as_image` `image_type`	600 1333 0.3 0.5 100 0.5 100 いいえ JPG

XAI アルゴリズム	アルゴリズム固有のパラメーター	既定値
`xrai`	1. `n_steps`: 概算法が使用するステップの数。ステップの数が多いほど、属性の近似が向上します (説明)。 n_stepsの範囲は [2, inf)] ですが、属性のパフォーマンスは 50 ステップ後に収束し始めます。 `Optional, Int` 2. `xrai_fast`: より高速なバージョンの XRAI を使用するかどうか。 `True` の場合、説明の計算時間は速くなりますが、正確でない説明 (属性) につながります。 `Optional, Bool`	`n_steps = 50` `xrai_fast = True`
`integrated_gradients`	1. `n_steps`: 概算法が使用するステップの数。手順の数が多いほど、属性 (説明) が向上します。 n_stepsの範囲は [2, inf)] ですが、属性のパフォーマンスは 50 ステップ後に収束し始めます。 `Optional, Int` 2. `approximation_method`: 積分を概算する方法。使用可能な概算法は `riemann_middle` と `gausslegendre` です。 `Optional, String`	`n_steps = 50` `approximation_method = riemann_middle`

次の方法で共有

Computer Vision モデルをトレーニングするために AutoML を設定する

前提条件

タスクの種類の選択

データをトレーニングして検証する

JSONL スキーマのサンプル

データの使用

実験を実行するために計算する

実験を構成する

主要メトリック

ジョブの制限

モデルのハイパーパラメーターの自動スイープ (AutoMode)

AutoMode のトリガー

個々の試行

サポートされているモデル アーキテクチャ

サポートされているモデル アーキテクチャ - HuggingFace と MMDetection

モデル ハイパーパラメーターの手動スイープ

パラメーター検索空間を定義する

スイープのサンプリング方法

早期終了ポリシー

固定設定

データの拡張

増分トレーニング (省略可能)

ジョブ ID を使用してチェックポイントを渡す

AutoML ジョブを送信する

出力と評価のメトリック

モデルを登録して展開する

最適な試行を取得する

モデルを登録する

オンライン エンドポイントを構成する

エンドポイントを作成する

オンライン デプロイを構成する

配置を作成する

トラフィックを更新する

推論設定を更新する

展開をテスト

予測の説明を生成する

説明

視覚化の解釈

属性の解釈

大規模なデータセット

マルチ GPU とマルチノードのトレーニング

ストレージからの画像ファイルのストリーミング

サンプルの Notebook

コード例

次のステップ

フィードバック

その他のリソース

サポートされているモデルアーキテクチャ

サポートされているモデルアーキテクチャ - HuggingFace と MMDetection

モデルハイパーパラメーターの手動スイープ

オンラインエンドポイントを構成する

オンラインデプロイを構成する