Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
En esta página se proporciona información general sobre cómo actualizar un área de trabajo que no es del catálogo de Unity al catálogo de Unity. También proporciona instrucciones para migrar del metastore de Hive local del área de trabajo antigua.
Información general sobre los pasos de actualización
Para actualizar al catálogo de Unity, debe:
- Aprovisione identidades (usuarios, grupos y entidades de servicio) directamente en la cuenta de Azure Databricks, si aún no lo está haciendo. Desactive cualquier aprovisionamiento de identidades de nivel de área de trabajo.
- Convierta los grupos locales del área de trabajo en grupos de nivel de cuenta. Unity Catalog centraliza la administración de identidades en el nivel de cuenta.
- Conecte el área de trabajo a un metastore del Catálogo de Unity. Si no existe ningún metastore para la región del área de trabajo, un administrador de la cuenta debe crear uno.
- Actualice las tablas y vistas administradas en el metastore de Hive al catálogo de Unity.
- Conceda a los usuarios, grupos o entidades de servicio en el nivel de cuenta acceso a las tablas actualizadas.
- Actualice las consultas y los trabajos para que hagan referencia a las nuevas tablas del catálogo de Unity en lugar de a las antiguas tablas del metastore de Hive.
- Deshabilite el metastore de Hive. Consulte Deshabilitar el acceso al metastore de Hive utilizado por su área de trabajo de Azure Databricks.
UCX, un proyecto de Databricks Labs, proporciona herramientas que le ayudan a actualizar el área de trabajo que no es Unity-Catalog a Unity Catalog. UCX es una buena opción para migraciones a mayor escala. Consulte Uso de utilidades de UCX para actualizar el área de trabajo a Unity Catalog.
Antes de empezar
Antes de empezar, debe familiarizarse con los conceptos básicos de Unity Catalog, incluidos los metastores y el almacenamiento administrado. Consulte ¿Qué es Unity Catalog?
También debe confirmar que cumple los siguientes requisitos:
Para la mayoría de los pasos de configuración, debe ser administrador de la cuenta de Azure Databricks. Para cualquier tarea que siga para la que haya otros requisitos de permisos, se muestran en la documentación específica de la tarea.
El primer administrador de cuentas de Azure Databricks debe ser un administrador global de Microsoft Entra ID en el momento en que inicie sesión por primera vez en la consola de la cuenta de Azure Databricks. Tras el primer inicio de sesión, ese usuario se convierte en administrador de cuentas de Azure Databricks y ya no necesita el rol de administrador global de Microsoft Entra ID para acceder a la cuenta de Azure Databricks. El primer administrador de cuenta puede asignar usuarios del inquilino de Microsoft Entra ID como administradores de cuenta adicionales, quienes a su vez pueden asignar más administradores de cuenta. Los administradores de cuentas adicionales no requieren roles específicos en Microsoft Entra ID.
Las áreas de trabajo que adjunte al metastore deben estar en el plan Premium de Azure Databricks.
Actualización a demostraciones del catálogo de Unity
Vea las siguientes demostraciones breves guiadas para ver las tareas de actualización clave en acción. Cada demostración cubre un paso específico y vínculos a documentación detallada cuando corresponda.
- Conversión de grupos locales del área de trabajo en grupos de nivel de cuenta
- Actualice tablas de su metastore de Hive a tablas del catálogo de Unity
- Actualización del procesamiento para el catálogo de Unity
- Actualiza consultas y trabajos para que funcionen con tus tablas mejoradas
Como alternativa, puede seguir la demostración Usar UCX para actualizar al catálogo de Unity.
Aprovisione usuarios, grupos y entidades de servicio en su cuenta
El Catálogo de Unity hace referencia a identidades a nivel de cuenta. Antes de adjuntar un metastore al área de trabajo, debe hacer lo siguiente:
Si usa SCIM para aprovisionar usuarios, grupos y entidades de servicio desde el IdP al área de trabajo, desactive y configure el aprovisionamiento en su cuenta de Azure Databricks. Consulte Sincronización de identidades desde el proveedor de identidades e Identidades.
Actualizar cualquier automatización que se haya configurado para administrar usuarios, grupos y entidades de servicio, como conectores de aprovisionamiento SCIM y automatización de Terraform, de modo que hagan referencia a puntos de conexión de cuenta en lugar de puntos de conexión de área de trabajo. Consulte Aprovisionamiento SCIM a nivel de cuenta y a nivel de espacio de trabajo.
Conversión de grupos locales del área de trabajo en grupos de nivel de cuenta
Consulte Migración de grupos locales del área de trabajo a grupos de cuentas.
Adjunta tu área de trabajo a un almacén de metadatos
Si el área de trabajo no se ha habilitado automáticamente para Unity Catalog (asociada a un metastore), el siguiente paso depende de si ya tiene definido un metastore de Unity Catalog para la región del área de trabajo:
- Si la cuenta ya tiene un metastore de Unity Catalog definido para la región del área de trabajo, simplemente puede asociar el área de trabajo al metastore existente. Vaya a Habilitar un área de trabajo para el Catálogo de Unity.
- Si no hay ningún metastore de Unity Catalog definido para la región del área de trabajo, debe crear un metastore y luego adjuntar el área de trabajo. Vaya a Crear un metastore del catálogo de Unity.
Actualizar las tablas del metastore de Hive a tablas del catálogo de Unity
Si el área de trabajo estaba en servicio antes de que se habilitara para el catálogo de Unity, tiene un metastore de Hive que probablemente contenga los datos que desea seguir usando. Databricks recomienda actualizar las tablas administradas por el metastore de Hive al metastore de Unity Catalog.
Opción 1: Federar y actualizar tablas externas
El enfoque recomendado es federar primero el metastore de Hive como catálogo externo y, a continuación, actualizar las tablas externas en su lugar. Este proceso de dos pasos permite migrar tablas sin movimiento de datos al tiempo que conserva el historial de tablas, la configuración, los permisos y las vistas.
Primero, federa tu metastore de Hive como un catálogo externo en Unity Catalog. Esto le permite acceder a las tablas existentes a través del catálogo de Unity y prepararlas para actualizarlas.
Para obtener instrucciones para federar el metastore de Hive, consulte Federación de metastore de Hive: habilitar el Catálogo de Unity para gestionar las tablas registradas en un metastore de Hive.
Nota:
Si decide no actualizar las tablas y desea seguir trabajando con el catálogo federado de forma permanente, puede hacerlo. Sin embargo, Databricks recomienda completar la actualización para aprovechar al máximo las características del catálogo de Unity.
Después de federar el metastore de Hive, puede actualizar las tablas externas a tablas de Catálogo de Unity sin ningún movimiento de datos. Este flujo de trabajo actualiza las tablas en su lugar, conservando el historial de tablas, la configuración, los permisos y las vistas.
Para actualizar una tabla externa a una tabla administrada del catálogo de Unity, ejecute el siguiente comando:
ALTER TABLE <foreign_catalog>.<schema>.<table_name> SET MANAGED;
Databricks recomienda actualizar a una tabla administrada para desbloquear la optimización predictiva de Unity Catalog, que incluye mantenimiento automático (compactación, agrupación en clústeres, eliminación de datos obsoletos) y mejoras de rendimiento. Para actualizar una tabla externa a una tabla externa del catálogo de Unity, ejecute el siguiente comando:
ALTER TABLE <foreign_catalog>.<schema>.<table_name> SET EXTERNAL;
Una vez migradas las tablas y ya no depende de la federación con su catálogo externo, puede quitar la conexión:
ALTER CATALOG <foreign_catalog> DROP CONNECTION;
Para obtener más información sobre este flujo de trabajo, consulte Conversión de una tabla externa en una tabla de catálogo de Unity administrada.
Opción 2: Actualizar tablas directamente
Si decide no usar el flujo de trabajo de actualización basado en federación, puede actualizar las tablas directamente mediante SYNC o CREATE TABLE AS SELECT. Consulte Actualizar tablas y vistas de Hive en el Unity Catalog.
Concesión de acceso a tablas actualizadas o federadas
Conceda a los usuarios, grupos o entidades de servicio en el nivel de cuenta acceso a las tablas nuevas. Consulte Administración de privilegios en Unity Catalog.
Actualiza las consultas y los trabajos para que funcionen con tus tablas mejoradas y rutas de acceso a los datos
Mientras realiza la transición desde el metastore local de Hive del área de trabajo al catálogo de Unity, puede seguir usando consultas y trabajos que hacen referencia a los datos registrados en el metastore de Hive, usando la federación de metastore de Hive (recomendado) o la sintaxis descrita en Trabajo con el metastore de Hive heredado junto con el catálogo de Unity. Sin embargo, finalmente debe actualizar todas las consultas y trabajos para usar tablas y sintaxis del catálogo de Unity.
Del mismo modo, actualice las consultas y los trabajos que usan el acceso por ruta a archivos para usar volúmenes del Catálogo Unity en su lugar.
Para obtener recomendaciones detalladas, consulte Actualización de trabajos al actualizar áreas de trabajo heredadas al catálogo de Unity.