Compartir a través de


Creación de almacenes de datos

SE APLICA A:Extensión ml de la CLI de Azure v2 (actual)SDK de Python azure-ai-ml v2 (actual)

En este artículo, aprenderá a conectarse a los servicios de almacenamiento de datos de Azure mediante almacenes de datos de Azure Machine Learning.

Requisitos previos

Nota:

Los almacenes de datos de Machine Learning no crean los recursos de la cuenta de almacenamiento subyacentes. En su lugar, vinculan una cuenta de almacenamiento existente para el uso de Machine Learning. Cada tipo de almacén de datos (Azure Blob, ADLS Gen2, Azure Files, OneLake) se crea de forma independiente. El orden de las secciones de este artículo no representa una secuencia de pasos necesaria.

Creación de un almacén de datos de Azure Blob

from azure.ai.ml.entities import AzureBlobDatastore
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

ml_client = MLClient.from_config(credential=DefaultAzureCredential())

store = AzureBlobDatastore(
    name="",
    description="",
    account_name="",
    container_name=""
)

ml_client.create_or_update(store)

Creación de un almacén de datos de Azure Data Lake Storage Gen2

from azure.ai.ml.entities import AzureDataLakeGen2Datastore
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

ml_client = MLClient.from_config(credential=DefaultAzureCredential())

store = AzureDataLakeGen2Datastore(
    name="",
    description="",
    account_name="",
    filesystem=""
)

ml_client.create_or_update(store)

Creación de un almacén de datos de Azure Files

from azure.ai.ml.entities import AzureFileDatastore
from azure.ai.ml.entities import AccountKeyConfiguration
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

ml_client = MLClient.from_config(credential=DefaultAzureCredential())

store = AzureFileDatastore(
    name="file_example",
    description="Datastore pointing to an Azure File Share.",
    account_name="mytestfilestore",
    file_share_name="my-share",
    credentials=AccountKeyConfiguration(
        account_key= "aaaaaaaa-0b0b-1c1c-2d2d-333333333333"
    ),
)

ml_client.create_or_update(store)

Creación de un almacén de datos de Azure Data Lake Storage Gen1

Importante

Azure Data Lake Storage Gen1 se retiró el 29 de febrero de 2024. Ya no se puede crear nuevas cuentas de Gen1 y ya no se puede acceder a los recursos existentes de Gen1. Solo se proporciona el siguiente contenido para referencia. En el caso de los nuevos almacenes de datos, use Azure Data Lake Storage Gen2 en su lugar. Para más información sobre la migración de datos existentes, consulte Migración de Azure Data Lake Storage de Gen1 a Gen2.

from azure.ai.ml.entities import AzureDataLakeGen1Datastore
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

ml_client = MLClient.from_config(credential=DefaultAzureCredential())

store = AzureDataLakeGen1Datastore(
    name="",
    store_name="",
    description="",
)

ml_client.create_or_update(store)

Creación de un almacén de datos de OneLake (Microsoft Fabric) (versión preliminar)

En esta sección se describen varias opciones para crear un almacén de datos de OneLake. El almacén de datos OneLake forma parte de Microsoft Fabric. En este momento, Machine Learning admite la conexión a artefactos de Microsoft Fabric Lakehouse en la carpeta «Files», que incluyen carpetas o archivos y accesos directos de Amazon S3. Para obtener más información sobre lakehouses, consulte ¿Qué es un lago en Microsoft Fabric?.

La creación del almacén de datos OneLake requiere la siguiente información de la instancia de Microsoft Fabric:

  • Punto de conexión
  • GUID del área de trabajo
  • GUID de artefacto

En las capturas de pantalla siguientes se describe cómo recuperar estos recursos de información necesarios de la instancia de Microsoft Fabric.

Captura de pantalla que muestra cómo hacer clic en las propiedades de artefacto del artefacto del área de trabajo de Microsoft Fabric en la interfaz de usuario de Microsoft Fabric.

Puede encontrar el "Punto de conexión", "GUID del área de trabajo" y "GUID del artefacto" en la "URL" y la "ruta de acceso ABFS" desde la página "Propiedades":

  • Formato de dirección URL: https://{your_one_lake_endpoint}/{your_one_lake_workspace_guid}/{your_one_lake_artifact_guid}/Files
  • Formato de ruta de acceso de ABFS: abfss://{your_one_lake_workspace_guid}@{your_one_lake_endpoint}/{your_one_lake_artifact_guid}/Files

Captura de pantalla que muestra la dirección URL y la ruta de acceso de ABFS de un artefacto OneLake en la interfaz de usuario de Microsoft Fabric.

Creación de un almacén de datos de OneLake

from azure.ai.ml.entities import OneLakeDatastore, OneLakeArtifact
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

ml_client = MLClient.from_config(credential=DefaultAzureCredential())

store = OneLakeDatastore(
    name="onelake_example_id",
    description="Datastore pointing to a Microsoft fabric artifact.",
    one_lake_workspace_name="bbbbbbbb-7777-8888-9999-cccccccccccc", #{your_one_lake_workspace_guid}
    endpoint="msit-onelake.dfs.fabric.microsoft.com", #{your_one_lake_endpoint}
    artifact=OneLakeArtifact(
        name="cccccccc-8888-9999-0000-dddddddddddd/Files", #{your_one_lake_artifact_guid}/Files
        type="lake_house"
    )
)

ml_client.create_or_update(store)

Pasos siguientes