Dela via


ai_parse_document

Parsar en kolumn som innehåller binära data (blob) och returnerar en VariantType. Utlöser ett undantag om indatabloben är ogiltig.

Syntax

from pyspark.databricks.sql import functions as dbf

dbf.ai_parse_document(col=<col>, options=<options>)

Parameterar

Parameter Typ Description
col pyspark.sql.Column eller binära data Ett kolumn- eller kolumnnamn som innehåller de binära blobar som ska parsas.
options dictvalfri En ordlista med alternativ för att styra parsningsbeteendet.

Retur

pyspark.sql.Column: En ny kolumn med VariantType som innehåller dokumentets parsningsresultat. Resultatet innehåller ett document objekt med pages och elements matriser, tillsammans med error_status och metadata. Varje element representerar en diskret enhet med innehåll i det tolkade dokumentet, till exempel ett textstycke, en tabell, en figur eller en layoutmarkör. Det fullständiga utdataschemat och information om element finns i ai_parse_document.