Compartir a través de


LexicalTokenizerName type

Define valores para LexicalTokenizerName.
<xref:KnownLexicalTokenizerName> se puede usar indistintamente con LexicalTokenizerName, esta enumeración contiene los valores conocidos que admite el servicio.

Valores conocidos admitidos por el servicio

clásico: tokenizador basado en gramática que es adecuado para procesar la mayoría de los documentos de idioma europeo. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html.
edgeNGram: tokeniza la entrada de un borde en n gramos de los tamaños especificados. Vea https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html.
keyword_v2: emite toda la entrada como un solo token. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html.
letra: divide el texto en letras no letras. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html.
minúsculas: divide el texto en letras y los convierte en minúsculas. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html.
microsoft_language_tokenizer: divide el texto mediante reglas específicas del idioma.
microsoft_language_stemming_tokenizer: divide el texto mediante reglas específicas del idioma y reduce las palabras a sus formularios base.
nGram: tokeniza la entrada en n gramos de los tamaños especificados. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html.
path_hierarchy_v2: tokenizador para jerarquías de tipo ruta de acceso. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html.
patrón: tokenizador que usa la coincidencia de patrones regex para construir tokens distintos. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html.
standard_v2: analizador estándar de Lucene; Compuesto por el tokenizador estándar, el filtro en minúsculas y el filtro stop. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html.
uax_url_email: tokeniza las direcciones URL y los correos electrónicos como un token. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html.
espacio en blanco: divide el texto en un espacio en blanco. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html.

type LexicalTokenizerName = string