Compartir a través de


Actualización de áreas de trabajo de Azure Databricks al catálogo de Unity

En esta página se proporciona información general sobre cómo actualizar un área de trabajo que no es del catálogo de Unity al catálogo de Unity. También proporciona instrucciones para migrar del metastore de Hive local del área de trabajo antigua.

Información general sobre los pasos de actualización

Para actualizar al catálogo de Unity, debe:

  1. Aprovisione identidades (usuarios, grupos y entidades de servicio) directamente en la cuenta de Azure Databricks, si aún no lo está haciendo. Desactive cualquier aprovisionamiento de identidades de nivel de área de trabajo.
  2. Convierta los grupos locales del área de trabajo en grupos de nivel de cuenta. Unity Catalog centraliza la administración de identidades en el nivel de cuenta.
  3. Conecte el área de trabajo a un metastore del Catálogo de Unity. Si no existe ningún metastore para la región del área de trabajo, un administrador de la cuenta debe crear uno.
  4. Actualice las tablas y vistas administradas en el metastore de Hive al catálogo de Unity.
  5. Conceda a los usuarios, grupos o entidades de servicio en el nivel de cuenta acceso a las tablas actualizadas.
  6. Actualice las consultas y los trabajos para que hagan referencia a las nuevas tablas del catálogo de Unity en lugar de a las antiguas tablas del metastore de Hive.
  7. Deshabilite el metastore de Hive. Consulte Deshabilitar el acceso al metastore de Hive utilizado por su área de trabajo de Azure Databricks.

UCX, un proyecto de Databricks Labs, proporciona herramientas que le ayudan a actualizar el área de trabajo que no es Unity-Catalog a Unity Catalog. UCX es una buena opción para migraciones a mayor escala. Consulte Uso de utilidades de UCX para actualizar el área de trabajo a Unity Catalog.

Antes de empezar

Antes de empezar, debe familiarizarse con los conceptos básicos de Unity Catalog, incluidos los metastores y el almacenamiento administrado. Consulte ¿Qué es Unity Catalog?

También debe confirmar que cumple los siguientes requisitos:

  • Para la mayoría de los pasos de configuración, debe ser administrador de la cuenta de Azure Databricks. Para cualquier tarea que siga para la que haya otros requisitos de permisos, se muestran en la documentación específica de la tarea.

    El primer administrador de cuentas de Azure Databricks debe ser un administrador global de Microsoft Entra ID en el momento en que inicie sesión por primera vez en la consola de la cuenta de Azure Databricks. Tras el primer inicio de sesión, ese usuario se convierte en administrador de cuentas de Azure Databricks y ya no necesita el rol de administrador global de Microsoft Entra ID para acceder a la cuenta de Azure Databricks. El primer administrador de cuenta puede asignar usuarios del inquilino de Microsoft Entra ID como administradores de cuenta adicionales, quienes a su vez pueden asignar más administradores de cuenta. Los administradores de cuentas adicionales no requieren roles específicos en Microsoft Entra ID.

  • Las áreas de trabajo que adjunte al metastore deben estar en el plan Premium de Azure Databricks.

Actualización a demostraciones del catálogo de Unity

Vea las siguientes demostraciones breves guiadas para ver las tareas de actualización clave en acción. Cada demostración cubre un paso específico y vínculos a documentación detallada cuando corresponda.

Como alternativa, puede seguir la demostración Usar UCX para actualizar al catálogo de Unity.

Aprovisione usuarios, grupos y entidades de servicio en su cuenta

El Catálogo de Unity hace referencia a identidades a nivel de cuenta. Antes de adjuntar un metastore al área de trabajo, debe hacer lo siguiente:

Conversión de grupos locales del área de trabajo en grupos de nivel de cuenta

Consulte Migración de grupos locales del área de trabajo a grupos de cuentas.

Adjunta tu área de trabajo a un almacén de metadatos

Si el área de trabajo no se ha habilitado automáticamente para Unity Catalog (asociada a un metastore), el siguiente paso depende de si ya tiene definido un metastore de Unity Catalog para la región del área de trabajo:

Actualizar las tablas del metastore de Hive a tablas del catálogo de Unity

Si el área de trabajo estaba en servicio antes de que se habilitara para el catálogo de Unity, tiene un metastore de Hive que probablemente contenga los datos que desea seguir usando. Databricks recomienda actualizar las tablas administradas por el metastore de Hive al metastore de Unity Catalog.

Opción 1: Federar y actualizar tablas externas

El enfoque recomendado es federar primero el metastore de Hive como catálogo externo y, a continuación, actualizar las tablas externas en su lugar. Este proceso de dos pasos permite migrar tablas sin movimiento de datos al tiempo que conserva el historial de tablas, la configuración, los permisos y las vistas.

Primero, federa tu metastore de Hive como un catálogo externo en Unity Catalog. Esto le permite acceder a las tablas existentes a través del catálogo de Unity y prepararlas para actualizarlas.

Para obtener instrucciones para federar el metastore de Hive, consulte Federación de metastore de Hive: habilitar el Catálogo de Unity para gestionar las tablas registradas en un metastore de Hive.

Nota:

Si decide no actualizar las tablas y desea seguir trabajando con el catálogo federado de forma permanente, puede hacerlo. Sin embargo, Databricks recomienda completar la actualización para aprovechar al máximo las características del catálogo de Unity.

Después de federar el metastore de Hive, puede actualizar las tablas externas a tablas de Catálogo de Unity sin ningún movimiento de datos. Este flujo de trabajo actualiza las tablas en su lugar, conservando el historial de tablas, la configuración, los permisos y las vistas.

Para actualizar una tabla externa a una tabla administrada del catálogo de Unity, ejecute el siguiente comando:

ALTER TABLE <foreign_catalog>.<schema>.<table_name> SET MANAGED;

Databricks recomienda actualizar a una tabla administrada para desbloquear la optimización predictiva de Unity Catalog, que incluye mantenimiento automático (compactación, agrupación en clústeres, eliminación de datos obsoletos) y mejoras de rendimiento. Para actualizar una tabla externa a una tabla externa del catálogo de Unity, ejecute el siguiente comando:

ALTER TABLE <foreign_catalog>.<schema>.<table_name> SET EXTERNAL;

Una vez migradas las tablas y ya no depende de la federación con su catálogo externo, puede quitar la conexión:

ALTER CATALOG <foreign_catalog> DROP CONNECTION;

Para obtener más información sobre este flujo de trabajo, consulte Conversión de una tabla externa en una tabla de catálogo de Unity administrada.

Opción 2: Actualizar tablas directamente

Si decide no usar el flujo de trabajo de actualización basado en federación, puede actualizar las tablas directamente mediante SYNC o CREATE TABLE AS SELECT. Consulte Actualizar tablas y vistas de Hive en el Unity Catalog.

Concesión de acceso a tablas actualizadas o federadas

Conceda a los usuarios, grupos o entidades de servicio en el nivel de cuenta acceso a las tablas nuevas. Consulte Administración de privilegios en Unity Catalog.

Actualiza las consultas y los trabajos para que funcionen con tus tablas mejoradas y rutas de acceso a los datos

Mientras realiza la transición desde el metastore local de Hive del área de trabajo al catálogo de Unity, puede seguir usando consultas y trabajos que hacen referencia a los datos registrados en el metastore de Hive, usando la federación de metastore de Hive (recomendado) o la sintaxis descrita en Trabajo con el metastore de Hive heredado junto con el catálogo de Unity. Sin embargo, finalmente debe actualizar todas las consultas y trabajos para usar tablas y sintaxis del catálogo de Unity.

Del mismo modo, actualice las consultas y los trabajos que usan el acceso por ruta a archivos para usar volúmenes del Catálogo Unity en su lugar.

Para obtener recomendaciones detalladas, consulte Actualización de trabajos al actualizar áreas de trabajo heredadas al catálogo de Unity.