Compartilhar via


Referência do PySpark

Esta página fornece uma visão geral da referência disponível para o PySpark, uma API do Python para Spark. Para obter mais informações sobre o PySpark, consulte PySpark no Azure Databricks.

Tipos de dados

Para obter uma lista completa dos tipos de dados do PySpark, consulte os tipos de dados do PySpark.

Aulas

Referência Description
Avro Suporte para leitura e gravação de dados no formato Apache Avro.
Catálogo Interface para gerenciar bancos de dados, tabelas, funções e outros metadados de catálogo.
Coluna Operações para trabalhar com colunas DataFrame, incluindo transformações e expressões.
Tipos de dados Tipos de dados disponíveis no PySpark SQL, incluindo tipos primitivos, tipos complexos e tipos definidos pelo usuário.
DataFrame Coleção distribuída de dados organizados em colunas nomeadas, semelhante a uma tabela em um banco de dados relacional.
DataFrameNaFunctions Funcionalidade para trabalhar com dados ausentes em um DataFrame.
DataFrameReader Interface usada para carregar um DataFrame de sistemas de armazenamento externos.
DataFrameStatFunctions Funcionalidade para funções estatísticas com um DataFrame.
DataFrameWriter Interface usada para gravar um DataFrame em sistemas de armazenamento externos.
DataFrameWriterV2 Interface usada para gravar um DataFrame no armazenamento externo (versão 2).
DataSource APIs para implementar fontes de dados personalizadas a serem lidas de sistemas externos. Para obter informações sobre fontes de dados personalizadas, consulte fontes de dados personalizadas do PySpark.
DataSourceArrowWriter Uma classe base para gravadores de fonte de dados que processam dados usando pyArrow's RecordBatch.
DataSourceRegistration Um wrapper para registro de fonte de dados.
DataSourceReader Uma classe base para leitores de fonte de dados.
DataSourceStreamArrowWriter Uma classe base para gravadores de fluxo de dados que processam dados usando pyArrow's RecordBatch.
DataSourceStreamReader Uma classe base para leitores de fonte de dados de streaming.
DataSourceStreamWriter Uma classe base para gravadores de fluxo de dados.
GroupedData Métodos para agrupar dados e executar operações de agregação em DataFrames agrupados.
Observação Coleta métricas e observa DataFrames durante a execução da consulta para monitoramento e depuração.
PlotAccessor Acessador para funcionalidade de plotagem de DataFrame no PySpark.
ProtoBuf Suporte para serialização e desserialização de dados usando o formato Protocol Buffers.
Linha Representa uma linha de dados em um DataFrame, fornecendo acesso a valores de campo individuais.
RuntimeConfig Opções de configuração de runtime para o Spark SQL, incluindo configurações de execução e otimizador.
Para obter informações sobre a configuração disponível apenas no Databricks, consulte Definir propriedades de configuração do Spark no Azure Databricks.
sparkSession O ponto de entrada para ler dados e executar consultas SQL em aplicativos PySpark.
Processador com estado Gerencia estados em lotes de streaming para operações com estado complexas no streaming estruturado.
UserDefinedFunction (UDF) Funções definidas pelo usuário para aplicar lógica python personalizada a colunas DataFrame.
UDFRegistration Wrapper para registro de função definido pelo usuário. Essa instância pode ser acessada por spark.udf.
UserDefinedTableFunction (UDTF) Funções de tabela definidas pelo usuário que retornam várias linhas para cada linha de entrada.
UDTFRegistration Wrapper para registro de função de tabela definido pelo usuário. Essa instância pode ser acessada por spark.udtf.
VariantVal Representa dados semiestruturados com esquema flexível, que dá suporte a tipos dinâmicos e estruturas aninhadas.
Janela Funções de janela para executar cálculos em um conjunto de linhas de tabela relacionadas à linha atual.
WindowSpec Funções de janela para executar cálculos em um conjunto de linhas de tabela relacionadas à linha atual.

Functions

Para obter uma lista completa das funções internas disponíveis, consulte as funções do PySpark.