Partilhar via


ai_parse_document

Analisa uma coluna contendo dados binários (blob) e devolve um VariantType. Lança uma exceção se o blob de entrada for inválido.

Sintaxe

from pyspark.databricks.sql import functions as dbf

dbf.ai_parse_document(col=<col>, options=<options>)

Parâmetros

Parâmetro Tipo Description
col pyspark.sql.Column ou dados binários Uma coluna ou nome de coluna contendo os blobs binários a analisar.
options dict, opcional Um dicionário de opções para controlar o comportamento de análise sintáctica.

Devoluções

pyspark.sql.Column: Uma nova coluna de VariantType contendo o resultado da análise do documento. O resultado inclui um document objeto com pages arrays e elements , juntamente com error_status e metadata. Cada elemento representa uma unidade discreta de conteúdo dentro do documento analisado, como um parágrafo de texto, tabela, figura ou marcador de layout. Para o esquema de saída completo e detalhes sobre os elementos, veja ai_parse_document.