Compartir a través de


Oraciones

Divide una cadena en matrices de oraciones, donde cada oración es una matriz de palabras.

Los language argumentos y country son opcionales. Cuando se omiten:

  • Si se omiten, Locale.ROOT - locale(language='', country='') se usa . se Locale.ROOT considera la configuración regional base de todas las configuraciones regionales y se usa como idioma o configuración regional neutral del país para las operaciones sensibles a la configuración regional.
  • country Si se omite , locale(language, country='') se usa .

Cuando son NULL:

  1. Si son ambos null, Locale.US - locale(language='en', country='US') se usa .
  2. Si es language null y country no es null, Locale.US - locale(language='en', country='US') se usa .
  3. Si no language es null y country es null, locale(language) se usa .
  4. Si ninguno de ellos es null, locale(language, country) se usa .

Para obtener la función SQL de Databricks correspondiente, consulte sentences function.

Syntax

from pyspark.databricks.sql import functions as dbf

dbf.sentences(string=<string>, language=<language>, country=<country>)

Parámetros

Parámetro Tipo Description
string pyspark.sql.Column o str una cadena que se va a dividir
language pyspark.sql.Column o str, optional un idioma de la configuración regional
country pyspark.sql.Column o str, optional un país de la configuración regional

Devoluciones

pyspark.sql.Column: matrices de oraciones divididas.

Examples

from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([("This is an example sentence.", )], ["s"])
df.select("*", dbf.sentences(df.s, dbf.lit("en"), dbf.lit("US"))).show(truncate=False)
df.select("*", dbf.sentences(df.s, dbf.lit("en"))).show(truncate=False)
df.select("*", dbf.sentences(df.s)).show(truncate=False)