Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
En este artículo se describe cómo registrar Azure Databricks y cómo autenticarse e interactuar con Azure catálogo de Databricks Unity en Microsoft Purview. Para obtener más información sobre Microsoft Purview, consulte el artículo introductorio.
Funciones admitidas
Funcionalidades de examen
| Extracción de metadatos | Examen completo | Examen incremental | Examen con ámbito |
|---|---|---|---|
| Sí | Sí | Sí | No |
Al examinar Azure catálogo de Databricks Unity, Microsoft Purview admite:
- Extracción de metadatos técnicos, entre los que se incluyen:
- Metastore
- Catálogos
- Schemas
- Tablas que incluyen las columnas
- Vistas que incluyen las columnas
- Captura del linaje en las relaciones de recursos entre tablas, vistas y columnas durante las ejecuciones del cuaderno.
Al configurar un examen, puede elegir examinar todo el catálogo de Unity o limitar el examen a un subconjunto de catálogos.
Otras funcionalidades
Para obtener clasificaciones, etiquetas de confidencialidad, directivas, linaje de datos y vista dinámica, consulte la lista de funcionalidades admitidas.
Nota:
Este conector trae metadatos de Azure catálogo de Databricks Unity. Para examinar Azure metadatos con ámbito de área de trabajo de Databricks, consulte Azure conector de Metastore de Hive de Databricks.
Limitaciones conocidas
En Microsoft Purview, los nombres de cuaderno de Databricks aparecen como identificadores numéricos en lugar de nombres legibles. Esta limitación existe porque Databricks no expone nombres de cuaderno en la tabla del sistema del catálogo de Unity.
Es posible que encuentre errores si los resultados del examen de Azure Databricks superan 1 MB y Azure almacenamiento de blobs administrado por Databricks deniega el acceso a la red pública. Para evitar este problema, asegúrese de que Microsoft Purview tiene acceso a la ubicación de almacenamiento DBFS interna del área de trabajo de Azure Databricks que se está examinando. Para más información, consulte Captura en la nube en JDBC.
El examen incremental solo está disponible para el origen de datos del catálogo de Databricks Unity Azure.
El examen con ámbito solo está disponible para la opción Catálogo de Unity en Azure origen de datos de Databricks.
Solo puede agregar puntos de conexión privados administrados para la opción Catálogo de Unity en Azure origen de datos de Databricks.
Al eliminar un objeto del origen de datos, el examen posterior no quita automáticamente el recurso correspondiente en Microsoft Purview.
La información de linaje no está disponible en Azure áreas de trabajo de Databricks en la región China. Esta limitación existe porque Azure tablas del sistema de Databricks no se admiten en esta región. Microsoft Purview usa estas tablas para extraer linaje, por lo que no puede recuperar el linaje en esta región.
Establezca el comentario de columna de tabla de Databricks en una cadena vacía si no desea que se muestre la descripción de la columna en Microsoft Purview.
Para obtener más información sobre otras limitaciones relacionadas con el linaje nativo Azure Databricks, consulte Azure documentación de Databricks.
Requisitos previos
Debe tener una cuenta de Azure con una suscripción activa. Cree una cuenta de forma gratuita.
Debe tener una cuenta de Microsoft Purview activa.
Necesita un Azure Key Vault y conceder permisos de Microsoft Purview para acceder a los secretos.
Necesita permisos de administrador de origen de datos y lector de datos para registrar un origen y administrarlo en el portal de gobernanza de Microsoft Purview clásico. Para obtener más información sobre los permisos, consulte Control de acceso en Microsoft Purview.
Para examinar Azure catálogo de Databricks Unity, Microsoft Purview se conecta a una instancia de SQL Warehouse en el área de trabajo y usa un token de acceso personal para la autenticación. Debe tener una Azure área de trabajo de Databricks habilitada y conectada al metastore que desea examinar. En el área de trabajo de Azure Databricks:
Cree una instancia de SQL Warehouse. También puede usar el almacén de inicio creado automáticamente, si procede.
Anote la ruta de acceso HTTP. Puede encontrarlo en Azure área de trabajo de Databricks > SQL Warehouses la ruta de acceso HTTP de detalles >> de conexión del almacenamiento>.
Asegúrese de que el usuario tiene el permiso Can Use para que pueda conectarse a la Azure Databricks SQL Warehouse. Obtenga más información en Control de acceso de SQL Warehouse.
Sql Warehouse en Azure Databricks debe ejecutarse para establecer una conexión con Microsoft Purview antes de configurar el examen en Microsoft Purview.
Para capturar el linaje de Azure Databricks mediante Microsoft Purview, deben cumplirse los siguientes requisitos previos:
Habilitar el esquema del sistema: el esquema del sistema system.access debe estar habilitado en el catálogo de Unity. Este requisito existe porque la información de linaje se almacena en tablas del sistema y habilitar este esquema permite el acceso a esas tablas. Obtenga más información sobre la supervisión del uso con tablas del sistema.
Privilegios de usuario:
La cuenta de usuario que use para el examen debe tener privilegios SELECT en las siguientes tablas del sistema:
- system.access.table_lineage
- system.access.column_lineage
Estos permisos son necesarios porque los datos de linaje se leen directamente desde las tablas del sistema y, sin el acceso necesario, Microsoft Purview no puede recuperar la información de linaje.
La cuenta de usuario que use para el examen también debe tener estos permisos:
- USE CATALOG en el sistema
- USE SCHEMA en system.access
Si el área de trabajo de Azure Databricks no permite el acceso desde la red pública o si su cuenta de Microsoft Purview no habilita el acceso desde todas las redes, puede usar el entorno de ejecución de integración autohospedado administrado Virtual Network Integration Runtime o un entorno de ejecución de integración autohospedado compatible con Kubernetes para examinar. Puede configurar un punto de conexión privado administrado para Azure Databricks según sea necesario para establecer la conectividad privada.
Configuración del origen de datos (Azure Databricks frente a Azure Catálogo de Unity de Databricks)
Puede configurar una conexión de Azure catálogo de Databricks Unity a Microsoft Purview a través de dos orígenes:
- Azure Databricks (origen antiguo)
- Unity Catalog para Azure Databricks
Diferencias en las capacidades entre orígenes de datos
Las funcionalidades del conector del catálogo de Databricks Unity de Azure difieren en función del origen usado para la conexión, como se describe en esta tabla:
| Funcionalidad | Origen antiguo | Nuevo origen |
|---|---|---|
| Nombre de origen | Azure Databricks | Unity Catalog para Azure Databricks |
| Compatibilidad con el origen | Catálogo de Hive & Unity | Catálogo de Unity |
| Autenticación: Token de acceso personal | Compatible | Compatible |
| Autenticación: Entidad de servicio | No | Compatible |
| Autenticación: Identidad administrada | No | Compatible (identidad administrada por el sistema) |
| Integration Runtime: Azure IR | Compatible | Compatible |
| Integration Runtime: Ir de Virtual Network administrado | Compatible | Sí** |
| Integration Runtime: Kubernetes Self-Hosted IR | Compatible | Compatible |
| Examen con ámbito | Sí: nivel de catálogo | No |
| Examen incremental | No | Sí |
| Linaje | Compatible | Compatible |
**El examen Azure catálogo de Databricks Unity se admite a través de Virtual Network Integration Runtime administradas. Sin embargo, el punto de conexión privado administrado no se admite en este caso.
¿Qué origen debo usar?
Elija un origen en función de las necesidades de su organización o use ambos en paralelo. El cambio entre orígenes o el uso de ambos simultáneamente no provoca la duplicación de recursos en Microsoft Purview. Esta flexibilidad le permite empezar con la opción que mejor se adapte a su configuración actual y ajustar con el tiempo según sea necesario.
Autenticación para un examen
Puede usar tokens de acceso personal, identidades administradas o métodos de autenticación de entidad de servicio para examinar Azure catálogo de Databricks Unity.
Si usa una identidad administrada asignada por el sistema
En Azure Databricks
Vaya a Configuración Identidad>y acceso deladministrador> del área de trabajo.
Seleccione Agregar entidad de servicio.
Seleccione Agregar nuevo.
Seleccione Microsoft Entra ID administrado. Escriba el identificador de aplicación para Microsoft Purview. Puede encontrar el identificador de aplicación en los detalles del recurso de la cuenta de Microsoft Purview en la Azure Portal.
En Microsoft Purview
- Seleccione la identidad administrada asignada por el sistema en Credencial.
Para todos los objetos que desea traer a Microsoft Purview, el usuario o la entidad de servicio deben tener al menos el privilegio SELECT en tablas o vistas, USE CATALOG en el catálogo del objeto y USE SCHEMA en el esquema del objeto.
Para examinar todos los objetos de un metastore del catálogo de Unity, use un usuario o una entidad de servicio con el rol de administrador de metastore. Obtenga más información en Administrar privilegios en el catálogo de Unity y los privilegios del catálogo de Unity y objetos protegibles.
- Para la clasificación, el usuario también debe tener privilegios SELECT en las tablas o vistas para recuperar datos de ejemplo.
Registrarse
En esta sección se describe cómo registrar una Azure área de trabajo de Databricks en Microsoft Purview mediante el portal de gobernanza de Microsoft Purview clásico.
Vaya a su cuenta de Microsoft Purview.
Seleccione Mapa de datos en el panel izquierdo.
Seleccione Registrar.
En Registrar orígenes, seleccione AzureContinuar catálogo de Databricks Unity>.
En la pantalla Registrar orígenes (Azure catálogo de Databricks Unity), complete los pasos siguientes:
En Nombre, escriba un nombre que Microsoft Purview mostrará como origen de datos.
En Metastore ID (Id. de metastore), proporcione el identificador de metastore para el metastore del catálogo de Databricks Unity de Azure que desea examinar.
Seleccione una colección de la lista.
- Seleccione Finalizar.
Examinar
Sugerencia
Para solucionar cualquier problema con el examen:
- Confirme que cumple todos los requisitos previos.
- Revise la documentación de solución de problemas del examen.
Siga estos pasos para examinar Azure Databricks e identificar automáticamente los recursos. Para obtener más información sobre el examen, vea Exámenes e ingesta en Microsoft Purview.
Vaya a Orígenes.
Seleccione el Azure Databricks registrado.
Seleccione + Nuevo examen.
Proporcione los detalles siguientes:
Nombre: escriba un nombre para el examen.
Conectar a través del entorno de ejecución de integración: elija el entorno de ejecución de integración predeterminado Azure, Managed Virtual Network IR o un entorno de ejecución de integración autohospedado compatible con Kubernetes que creó.
Credencial: seleccione la credencial para conectarse al origen de datos. Asegúrese de:
- Seleccione Token de acceso, Identidad administrada o Entidad de servicio.
- Puede crear una nueva credencial de token de acceso o entidad de servicio al registrar un examen. Para obtener más información, consulte Credenciales para la autenticación de origen en Microsoft Purview.
Dirección URL del área de trabajo: Proporcione la dirección URL del área de trabajo que desea examinar.
-
Ruta de acceso HTTP: Especifique la ruta de acceso HTTP de Databricks SQL Warehouse a la que Se conecta Microsoft Purview y realiza el examen; por ejemplo,
/sql/1.0/endpoints/xxxxxxxxxxxxxxxx. Puede encontrarla en Azure área de trabajo de Databricks-> SQL Warehouses - almacenamiento ->> Detalles de conexión -> Ruta de acceso HTTP.
-
Ruta de acceso HTTP: Especifique la ruta de acceso HTTP de Databricks SQL Warehouse a la que Se conecta Microsoft Purview y realiza el examen; por ejemplo,
Extracción de linaje: Cambie la extracción de linaje a Activado para capturar el linaje de los recursos examinados.
Seleccione Probar conexión para validar la configuración.
Seleccione Continuar.
En Desencadenador de examen, elija si desea configurar una programación o ejecutar el examen una vez.
Revise el examen y seleccione Guardar y ejecutar.
Una vez que el examen finalice correctamente, vea cómo examinar y buscar recursos.
Visualización de los exámenes y las ejecuciones de examen
Para ver los exámenes existentes:
- Vaya al portal de Microsoft Purview. En el panel izquierdo, seleccione Mapa de datos.
- Seleccione el origen de datos. Puede ver una lista de exámenes existentes en ese origen de datos en Exámenes recientes o puede ver todos los exámenes en la pestaña Exámenes .
- Seleccione el examen que tiene los resultados que desea ver. En el panel se muestran todas las ejecuciones de examen anteriores, junto con el estado y las métricas de cada ejecución de examen.
- Seleccione el identificador de ejecución para comprobar los detalles de la ejecución del examen.
Administrar los exámenes
Para editar, cancelar o eliminar un examen:
Vaya al portal de Microsoft Purview. En el panel izquierdo, seleccione Mapa de datos.
Seleccione el origen de datos. Puede ver una lista de exámenes existentes en ese origen de datos en Exámenes recientes o puede ver todos los exámenes en la pestaña Exámenes .
Seleccione el examen que desea administrar. Después, podrá:
- Edite el examen seleccionando Editar examen.
- Para cancelar un examen en curso, seleccione Cancelar ejecución del examen.
- Para eliminar el examen, seleccione Eliminar examen.
Nota:
- La eliminación del examen no elimina los recursos de catálogo creados a partir de exámenes anteriores.
Examinar y buscar recursos
Después de examinar el Azure Databricks, puede examinar Catálogo unificado o buscar Catálogo unificado para ver los detalles del recurso y el linaje.
Al examinar por tipos de origen, verá dos entradas para Azure Catálogo de Unity de Databricks y Azure Databricks. La entrada Azure catálogo de Databricks Unity contiene los artefactos del catálogo de Unity, incluidos el metastore y sus catálogos, esquemas, tablas y vistas. La entrada Azure Databricks contiene los artefactos del área de trabajo.
En el recurso Azure área de trabajo de Databricks, puede encontrar el catálogo de Unity asociado en la pestaña Propiedades. La asociación también funciona en sentido inverso.
Linaje
Al examinar un recurso Azure Databricks determinado, puede ver los cuadernos que han capturado el linaje.
Vaya al recurso y seleccione la pestaña linaje. Puede ver el linaje en la Azure recurso de Databricks Notebook o en el recurso de tabla/vista cuando corresponda.
Escenarios de linaje admitidos
Lineage es compatible con tablas y vistas cuando se conectan a través de cuadernos de Databricks dentro del catálogo de Unity.
El linaje solo aparece para los objetos examinados a través de Microsoft Purview. Todos los recursos relacionados deben examinarse para formar un gráfico de linaje completo. Asegúrese de que todas las áreas de trabajo de Databricks con cuadernos pertinentes se incluyen en los exámenes de Microsoft Purview.
Limitaciones del linaje
- Al ejecutar cuadernos a través de trabajos de Databricks, es posible que no se capture el linaje de nivel de columna.
- Microsoft Purview solo muestra linaje parcial si no examina todos los objetos implicados en un flujo de datos. Por ejemplo, si un cuaderno del área de trabajo A escribe datos en una tabla del área de trabajo B, pero solo examina el área de trabajo A mediante Microsoft Purview, el linaje muestra el cuaderno, pero no la tabla de destino, lo que da como resultado un linaje incompleto.
- Si un servicio externo desencadena un cuaderno (por ejemplo, Azure Data Factory canalización [ADF] que llama a un trabajo de Databricks), el linaje de Microsoft Purview no refleja esa dependencia.
- En este caso, no se muestra el linaje entre los conjuntos de datos de ADF y los recursos de Databricks.
- Solo se captura el linaje integrado en los cuadernos de Databricks.
Falta el escenario de linaje
La extracción de linaje es pasiva; Microsoft Purview solo ingiere los registros de tabla del sistema del catálogo de Unity y hace que sea accesible.
- Consulte las secciones anteriores para asegurarse de que se admite el escenario de linaje.
- Valide que las tablas del sistema de linaje del catálogo de Unity (
system.access.table_lineage,system.access.column_lineage) se rellenan correctamente. - Genere una incidencia de soporte técnico si sigue teniendo problemas.
Consulte la sección funcionalidades admitidas para conocer los escenarios de linaje del catálogo de Unity de Databricks admitidos. Para obtener más información sobre el linaje en general, consulte guía del usuario de linaje y linaje de datos.
Preguntas más frecuentes (P+F)
¿Captura Microsoft Purview linaje de nivel de columna del catálogo de Unity?
Microsoft Purview captura el linaje tanto en la tabla del catálogo de Unity como en el nivel de vista, así como en el nivel de columna.
¿Por qué no veo linaje de nivel de columna?
El linaje de nivel de columna aparece al ejecutar el cuaderno desde un clúster. Los almacenes DE SQL no generan linaje de nivel de columna.
Cómo corregir un error de tiempo de espera?
Es posible que el examen no finalice si el área de trabajo contiene un gran número de recursos. Para solucionar este problema, establezca el ámbito del examen en algunos catálogos a la vez. Este enfoque reduce el número de recursos en cada examen y ayuda a completar los exámenes.
¿Por qué Microsoft Purview no capturó el linaje después de ejecutar mi cuaderno?
Después de ejecutar el cuaderno, Databricks puede tardar unos minutos en actualizar la información de linaje en sus tablas del sistema. Microsoft Purview puede capturar el linaje después de actualizar las tablas del sistema.
Pasos siguientes
Después de registrar el origen, use las siguientes guías para obtener más información sobre Microsoft Purview y sus datos: