Compartir a través de


Limitaciones de canalización

Las siguientes son limitaciones de Lakeflow Spark Declarative Pipelines que es importante tener en cuenta mientras desarrolla sus canalizaciones:

  • Un área de trabajo de Azure Databricks está limitada a 200 actualizaciones simultáneas de canalización. El número de conjuntos de datos que puede contener una sola canalización viene determinado por la configuración de canalización y la complejidad de la carga de trabajo.

  • La configuración de una canalización incluye referencias a archivos y carpetas de origen.

    • Si la configuración solo hace referencia a blocs de notas o archivos individuales, el límite por canalización es de 100 archivos de origen.

    • Si la configuración incluye carpetas, puede incluir hasta 50 entradas de origen formadas por archivos o carpetas.

      Al hacer referencia a una carpeta indirectamente se hace referencia a los archivos de esa carpeta. En este caso, el límite del número de archivos a los que se hace referencia (directa o indirectamente) es 1000.

    Si necesita más de 100 archivos de origen, organícelos en carpetas. Para obtener información sobre cómo usar carpetas para contener archivos de origen, consulte Explorador de recursos de canalización en el editor de canalizaciones de Lakeflow.

  • Los conjuntos de datos de canalización solo se pueden definir una vez. Por este motivo, pueden ser el destino de una sola operación en todas las canalizaciones. La excepción es la tabla de streaming con el procesamiento de flujo de adición, lo que permite escribir en la tabla de streaming desde varios orígenes de streaming. Consulte Uso de varios flujos para escribir en un único destino.

  • Las columnas de identidad tienen las siguientes limitaciones. Para más información sobre las columnas de identidad en tablas Delta, consulte Uso de columnas de identidad en Delta Lake.

    • Las columnas de identidad no se admiten en tablas que son objetivo del procesamiento AUTO CDC.
    • Es posible que las columnas de identidad puedan recalcularse durante las modificaciones de una vista materializada. Por este motivo, Databricks recomienda usar columnas de identidad en canalizaciones solo con tablas de streaming.
  • Solo los clientes y las aplicaciones de Azure Databricks pueden acceder a las vistas materializadas y las tablas de streaming publicadas desde canalizaciones, incluidas las creadas por Databricks SQL. Sin embargo, para que las vistas materializadas y las tablas de streaming sean accesibles externamente, puede usar la sink API para escribir en tablas en una instancia delta externa. Consulte Sinks in Lakeflow Spark Declarative Pipelines (Receptores en canalizaciones declarativas de Spark de Lakeflow).

  • Hay limitaciones para los recursos de computación de Databricks necesarios para ejecutar y consultar canalizaciones de Unity Catalog. Consulte los requisitos de las canalizaciones que se publican en el catálogo de Unity.

  • Las consultas de viaje en tiempo de Delta Lake solo se admiten con tablas de streaming y no se admiten con vistas materializadas. Consulte Trabajar con el historial de tablas.

  • No se pueden habilitar lecturas de Iceberg en vistas materializadas y tablas de streaming.

  • No se admite el uso de la función pivot(). La pivot operación en Spark requiere la carga diligente de los datos de entrada para calcular el esquema de salida. Esta funcionalidad no se admite en canalizaciones.

Para ver las cuotas de recursos de canalizaciones declarativas de Spark de Lakeflow, consulte Límites de recursos.