SplitSkill interface
文字列をテキストのチャンクに分割するスキル。
- Extends
プロパティ
| azure |
ユニットが azureOpenAITokens に設定されている場合にのみ適用されます。 指定した場合、splitSkill はトークン化の実行時にこれらのパラメーターを使用します。 パラメーターは有効な 'encoderModelName' と省略可能な 'allowedSpecialTokens' プロパティです。 |
| default |
使用する言語コードを示す値。 既定値は |
| maximum |
textSplitMode が 'pages' に設定されている場合にのみ適用されます。 指定した場合、SplitSkill は最初の 'maximumPagesToTake' ページの処理後に分割を中止し、各ドキュメントから必要な初期ページが少数の場合にのみパフォーマンスを向上させます。 |
| max |
必要な最大ページ長。 既定値は 10000 です。 |
| odatatype | ポリモーフィック識別子。このオブジェクトは、さまざまな型を指定します。 |
| page |
textSplitMode が 'pages' に設定されている場合にのみ適用されます。 指定した場合、n+ 1 番目のチャンクは、n 番目のチャンクの末尾からこの文字数/トークンで始まります。 |
| text |
実行する分割モードを示す値。 |
| unit | textSplitMode がページに設定されている場合にのみ適用されます。 指定できる値は 2 つあります。 値の選択によって、長さ (maximumPageLength と pageOverlapLength) の測定が決められます。 既定値は 'characters' です。これは、長さが文字で測定されることを意味します。 |
継承されたプロパティ
| context | ドキュメントのルートやドキュメントのコンテンツ (/document や /document/content など) など、操作が行われるレベルを表します。 既定値は /document です。 |
| description | スキルの入力、出力、および使用方法を記述するスキルの説明。 |
| inputs | スキルの入力には、ソース データ セット内の列、またはアップストリーム スキルの出力を指定できます。 |
| name | スキルセット内で一意に識別されるスキルの名前。 名前が定義されていないスキルには、スキル配列内の 1 から始まるインデックスの既定の名前が付けられます。先頭には文字 '#' が付きます。 |
| outputs | スキルの出力は、検索インデックス内のフィールドか、別のスキルによる入力として使用できる値のいずれかです。 |
プロパティの詳細
azureOpenAITokenizerParameters
ユニットが azureOpenAITokens に設定されている場合にのみ適用されます。 指定した場合、splitSkill はトークン化の実行時にこれらのパラメーターを使用します。 パラメーターは有効な 'encoderModelName' と省略可能な 'allowedSpecialTokens' プロパティです。
azureOpenAITokenizerParameters?: AzureOpenAITokenizerParameters
プロパティ値
defaultLanguageCode
使用する言語コードを示す値。 既定値は en です。
defaultLanguageCode?: "da" | "de" | "en" | "es" | "fi" | "fr" | "it" | "ko" | "pt" | "cs" | "nl" | "hu" | "ja" | "pl" | "ru" | "sv" | "tr" | "bs" | "et" | "he" | "hi" | "hr" | "id" | "lv" | "nb" | "sk" | "sl" | "zh" | "is" | "sr" | "ur" | "am" | "pt-br"
プロパティ値
"da" | "de" | "en" | "es" | "fi" | "fr" | "it" | "ko" | "pt" | "cs" | "nl" | "hu" | "ja" | "pl" | "ru" | "sv" | "tr" | "bs" | "et" | "he" | "hi" | "hr" | "id" | "lv" | "nb" | "sk" | "sl" | "zh" | "is" | "sr" | "ur" | "am" | "pt-br"
maximumPagesToTake
textSplitMode が 'pages' に設定されている場合にのみ適用されます。 指定した場合、SplitSkill は最初の 'maximumPagesToTake' ページの処理後に分割を中止し、各ドキュメントから必要な初期ページが少数の場合にのみパフォーマンスを向上させます。
maximumPagesToTake?: number
プロパティ値
number
maxPageLength
必要な最大ページ長。 既定値は 10000 です。
maxPageLength?: number
プロパティ値
number
odatatype
ポリモーフィック識別子。このオブジェクトは、さまざまな型を指定します。
odatatype: "#Microsoft.Skills.Text.SplitSkill"
プロパティ値
"#Microsoft.Skills.Text.SplitSkill"
pageOverlapLength
textSplitMode が 'pages' に設定されている場合にのみ適用されます。 指定した場合、n+ 1 番目のチャンクは、n 番目のチャンクの末尾からこの文字数/トークンで始まります。
pageOverlapLength?: number
プロパティ値
number
textSplitMode
実行する分割モードを示す値。
textSplitMode?: "pages" | "sentences"
プロパティ値
"pages" | "sentences"
unit
textSplitMode がページに設定されている場合にのみ適用されます。 指定できる値は 2 つあります。 値の選択によって、長さ (maximumPageLength と pageOverlapLength) の測定が決められます。 既定値は 'characters' です。これは、長さが文字で測定されることを意味します。
unit?: string
プロパティ値
string
継承されたプロパティの詳細
context
ドキュメントのルートやドキュメントのコンテンツ (/document や /document/content など) など、操作が行われるレベルを表します。 既定値は /document です。
context?: string
プロパティ値
string
description
inputs
スキルの入力には、ソース データ セット内の列、またはアップストリーム スキルの出力を指定できます。
inputs: InputFieldMappingEntry[]
プロパティ値
name
スキルセット内で一意に識別されるスキルの名前。 名前が定義されていないスキルには、スキル配列内の 1 から始まるインデックスの既定の名前が付けられます。先頭には文字 '#' が付きます。
name?: string
プロパティ値
string
outputs
スキルの出力は、検索インデックス内のフィールドか、別のスキルによる入力として使用できる値のいずれかです。
outputs: OutputFieldMappingEntry[]