Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Esta página fornece uma visão geral da referência disponível para o PySpark, uma API do Python para Spark. Para obter mais informações sobre o PySpark, consulte PySpark no Azure Databricks.
Tipos de dados
Para obter uma lista completa dos tipos de dados do PySpark, consulte os tipos de dados do PySpark.
Aulas
| Referência | Description |
|---|---|
| Avro | Suporte para leitura e gravação de dados no formato Apache Avro. |
| Catálogo | Interface para gerenciar bancos de dados, tabelas, funções e outros metadados de catálogo. |
| Coluna | Operações para trabalhar com colunas DataFrame, incluindo transformações e expressões. |
| Tipos de dados | Tipos de dados disponíveis no PySpark SQL, incluindo tipos primitivos, tipos complexos e tipos definidos pelo usuário. |
| DataFrame | Coleção distribuída de dados organizados em colunas nomeadas, semelhante a uma tabela em um banco de dados relacional. |
| DataFrameNaFunctions | Funcionalidade para trabalhar com dados ausentes em um DataFrame. |
| DataFrameReader | Interface usada para carregar um DataFrame de sistemas de armazenamento externos. |
| DataFrameStatFunctions | Funcionalidade para funções estatísticas com um DataFrame. |
| DataFrameWriter | Interface usada para gravar um DataFrame em sistemas de armazenamento externos. |
| DataFrameWriterV2 | Interface usada para gravar um DataFrame no armazenamento externo (versão 2). |
| DataSource | APIs para implementar fontes de dados personalizadas a serem lidas de sistemas externos. Para obter informações sobre fontes de dados personalizadas, consulte fontes de dados personalizadas do PySpark. |
| DataSourceArrowWriter | Uma classe base para gravadores de fonte de dados que processam dados usando pyArrow's RecordBatch. |
| DataSourceRegistration | Um wrapper para registro de fonte de dados. |
| DataSourceReader | Uma classe base para leitores de fonte de dados. |
| DataSourceStreamArrowWriter | Uma classe base para gravadores de fluxo de dados que processam dados usando pyArrow's RecordBatch. |
| DataSourceStreamReader | Uma classe base para leitores de fonte de dados de streaming. |
| DataSourceStreamWriter | Uma classe base para gravadores de fluxo de dados. |
| GroupedData | Métodos para agrupar dados e executar operações de agregação em DataFrames agrupados. |
| Observação | Coleta métricas e observa DataFrames durante a execução da consulta para monitoramento e depuração. |
| PlotAccessor | Acessador para funcionalidade de plotagem de DataFrame no PySpark. |
| ProtoBuf | Suporte para serialização e desserialização de dados usando o formato Protocol Buffers. |
| Linha | Representa uma linha de dados em um DataFrame, fornecendo acesso a valores de campo individuais. |
| RuntimeConfig | Opções de configuração de runtime para o Spark SQL, incluindo configurações de execução e otimizador. Para obter informações sobre a configuração disponível apenas no Databricks, consulte Definir propriedades de configuração do Spark no Azure Databricks. |
| sparkSession | O ponto de entrada para ler dados e executar consultas SQL em aplicativos PySpark. |
| Processador com estado | Gerencia estados em lotes de streaming para operações com estado complexas no streaming estruturado. |
| UserDefinedFunction (UDF) | Funções definidas pelo usuário para aplicar lógica python personalizada a colunas DataFrame. |
| UDFRegistration | Wrapper para registro de função definido pelo usuário. Essa instância pode ser acessada por spark.udf. |
| UserDefinedTableFunction (UDTF) | Funções de tabela definidas pelo usuário que retornam várias linhas para cada linha de entrada. |
| UDTFRegistration | Wrapper para registro de função de tabela definido pelo usuário. Essa instância pode ser acessada por spark.udtf. |
| VariantVal | Representa dados semiestruturados com esquema flexível, que dá suporte a tipos dinâmicos e estruturas aninhadas. |
| Janela | Funções de janela para executar cálculos em um conjunto de linhas de tabela relacionadas à linha atual. |
| WindowSpec | Funções de janela para executar cálculos em um conjunto de linhas de tabela relacionadas à linha atual. |
Functions
Para obter uma lista completa das funções internas disponíveis, consulte as funções do PySpark.