SplitSkill interface

パッケージ:: @azure/search-documents

文字列をテキストのチャンクに分割するスキル。

Extends: BaseSearchIndexerSkill

プロパティ

azureOpenAITokenizerParameters	ユニットが azureOpenAITokens に設定されている場合にのみ適用されます。指定した場合、splitSkill はトークン化の実行時にこれらのパラメーターを使用します。パラメーターは有効な 'encoderModelName' と省略可能な 'allowedSpecialTokens' プロパティです。
defaultLanguageCode	使用する言語コードを示す値。既定値は `en` です。
maximumPagesToTake	textSplitMode が 'pages' に設定されている場合にのみ適用されます。指定した場合、SplitSkill は最初の 'maximumPagesToTake' ページの処理後に分割を中止し、各ドキュメントから必要な初期ページが少数の場合にのみパフォーマンスを向上させます。
maxPageLength	必要な最大ページ長。既定値は 10000 です。
odatatype	ポリモーフィック識別子。このオブジェクトは、さまざまな型を指定します。
pageOverlapLength	textSplitMode が 'pages' に設定されている場合にのみ適用されます。指定した場合、n+ 1 番目のチャンクは、n 番目のチャンクの末尾からこの文字数/トークンで始まります。
textSplitMode	実行する分割モードを示す値。
unit	textSplitMode がページに設定されている場合にのみ適用されます。指定できる値は 2 つあります。値の選択によって、長さ (maximumPageLength と pageOverlapLength) の測定が決められます。既定値は 'characters' です。これは、長さが文字で測定されることを意味します。

継承されたプロパティ

context	ドキュメントのルートやドキュメントのコンテンツ (/document や /document/content など) など、操作が行われるレベルを表します。既定値は /document です。
description	スキルの入力、出力、および使用方法を記述するスキルの説明。
inputs	スキルの入力には、ソースデータセット内の列、またはアップストリームスキルの出力を指定できます。
name	スキルセット内で一意に識別されるスキルの名前。名前が定義されていないスキルには、スキル配列内の 1 から始まるインデックスの既定の名前が付けられます。先頭には文字 '#' が付きます。
outputs	スキルの出力は、検索インデックス内のフィールドか、別のスキルによる入力として使用できる値のいずれかです。

プロパティの詳細

azureOpenAITokenizerParameters

ユニットが azureOpenAITokens に設定されている場合にのみ適用されます。指定した場合、splitSkill はトークン化の実行時にこれらのパラメーターを使用します。パラメーターは有効な 'encoderModelName' と省略可能な 'allowedSpecialTokens' プロパティです。

azureOpenAITokenizerParameters?: AzureOpenAITokenizerParameters

プロパティ値

AzureOpenAITokenizerParameters

defaultLanguageCode

使用する言語コードを示す値。既定値は en です。

defaultLanguageCode?: "da" | "de" | "en" | "es" | "fi" | "fr" | "it" | "ko" | "pt" | "cs" | "nl" | "hu" | "ja" | "pl" | "ru" | "sv" | "tr" | "bs" | "et" | "he" | "hi" | "hr" | "id" | "lv" | "nb" | "sk" | "sl" | "zh" | "is" | "sr" | "ur" | "am" | "pt-br"

プロパティ値

"da" | "de" | "en" | "es" | "fi" | "fr" | "it" | "ko" | "pt" | "cs" | "nl" | "hu" | "ja" | "pl" | "ru" | "sv" | "tr" | "bs" | "et" | "he" | "hi" | "hr" | "id" | "lv" | "nb" | "sk" | "sl" | "zh" | "is" | "sr" | "ur" | "am" | "pt-br"

maximumPagesToTake

textSplitMode が 'pages' に設定されている場合にのみ適用されます。指定した場合、SplitSkill は最初の 'maximumPagesToTake' ページの処理後に分割を中止し、各ドキュメントから必要な初期ページが少数の場合にのみパフォーマンスを向上させます。

maximumPagesToTake?: number

プロパティ値

number

maxPageLength

必要な最大ページ長。既定値は 10000 です。

maxPageLength?: number

プロパティ値

number

odatatype

ポリモーフィック識別子。このオブジェクトは、さまざまな型を指定します。

odatatype: "#Microsoft.Skills.Text.SplitSkill"

プロパティ値

"#Microsoft.Skills.Text.SplitSkill"

pageOverlapLength

textSplitMode が 'pages' に設定されている場合にのみ適用されます。指定した場合、n+ 1 番目のチャンクは、n 番目のチャンクの末尾からこの文字数/トークンで始まります。

pageOverlapLength?: number

プロパティ値

number

textSplitMode

実行する分割モードを示す値。

textSplitMode?: "pages" | "sentences"

プロパティ値

"pages" | "sentences"

unit

textSplitMode がページに設定されている場合にのみ適用されます。指定できる値は 2 つあります。値の選択によって、長さ (maximumPageLength と pageOverlapLength) の測定が決められます。既定値は 'characters' です。これは、長さが文字で測定されることを意味します。

unit?: string

プロパティ値

string

継承されたプロパティの詳細

context

ドキュメントのルートやドキュメントのコンテンツ (/document や /document/content など) など、操作が行われるレベルを表します。既定値は /document です。

context?: string

プロパティ値

string

継承元SearchIndexerSkill.context

description

スキルの入力、出力、および使用方法を記述するスキルの説明。

description?: string

プロパティ値

string

継承元SearchIndexerSkill.description

inputs

スキルの入力には、ソースデータセット内の列、またはアップストリームスキルの出力を指定できます。

inputs: InputFieldMappingEntry[]

プロパティ値

InputFieldMappingEntry[]

継承元SearchIndexerSkill.inputs

name

スキルセット内で一意に識別されるスキルの名前。名前が定義されていないスキルには、スキル配列内の 1 から始まるインデックスの既定の名前が付けられます。先頭には文字 '#' が付きます。

name?: string

プロパティ値

string

継承元SearchIndexerSkill.name

outputs

スキルの出力は、検索インデックス内のフィールドか、別のスキルによる入力として使用できる値のいずれかです。

outputs: OutputFieldMappingEntry[]

プロパティ値

OutputFieldMappingEntry[]

継承元SearchIndexerSkill.outputs

フィードバック

このページはお役に立ちましたか?

次の方法で共有

SplitSkill interface

プロパティ

継承されたプロパティ

プロパティの詳細

azureOpenAITokenizerParameters

プロパティ値

defaultLanguageCode

プロパティ値

maximumPagesToTake

プロパティ値

maxPageLength

プロパティ値

odatatype

プロパティ値

pageOverlapLength

プロパティ値

textSplitMode

プロパティ値

unit

プロパティ値

継承されたプロパティの詳細

context

プロパティ値

description

プロパティ値

inputs

プロパティ値

name

プロパティ値

outputs

プロパティ値

フィードバック