分割器介绍

手动分割策略（商业版）

基于用户自定义分隔符的分割器，完全按照用户的主观意图实现文档分割，适用于需要精准控制分割边界的场景。

核心特性

自定义分割：用户在文档任意位置插入指定分隔符，分割器按分隔符位置拆分内容
精准可控：分割边界完全由用户决定，适配各类特殊业务场景的分割需求
无长度/格式限制：分割结果仅依赖分隔符位置，不受文本长度、文档格式约束

核心参数说明

参数名	含义	作用	示例
分隔符	用于触发分割的自定义字符/字符串	定义分割的边界标识	默认分隔符为`---`，用户在文档中插入`---`后，分割器会以此为界将文档拆分为多个片段
忽略空片段	是否过滤分割后产生的空内容片段	优化分割结果，避免无效片段	开启后，若分隔符连续出现或位于文档首尾，产生的空片段会被自动过滤

手动分割策略示例：

分割结果:

简单文档分割器

默认使用的基础分割器，将文本内容按字符长度进行连续分割，生成多个独立的文本片段（Chunks），适用于无结构化的纯文本内容处理。

核心特性

按字符长度（String.length()）进行机械分割，逻辑简单、处理高效
支持片段重叠配置，避免语义硬截断
无格式依赖，适配所有纯文本文档

参数名	含义	作用	示例
分段策略	文本分割的执行方式，分为「自动分割」和「手动分割」	控制分割的核心逻辑，适配不同使用场景	自动分割：按字符长度规则拆分手动分割：按用户插入的分隔符拆分,分隔符为 `---` （商业版独有）
分段长度	（仅自动分割生效）每个文本片段的最大字符长度	控制单段文本大小，适配LLM上下文窗口限制	分段长度=500时，每个片段字符数≤500，剩余不足则直接截取
分段重叠	（仅自动分割生效）相邻两个片段之间重叠的字符数	避免语义断裂，保持上下文连贯性	分段长度=500、分段重叠=100时：第1段：0~500字符第2段：400~900字符第3段：800~1300字符

正则文档分割器

基于正则表达式（Regex）规则的智能分割器，通过自定义匹配模式实现内容的结构化拆分，特别适用于具有固定格式的文档处理。

核心特性

智能分割：根据用户自定义正则表达式匹配内容边界进行分割
灵活匹配：支持所有标准正则表达式语法（如换行、特定符号、固定格式等）
结构保留：完美适配日志文件、代码文本、配置文件等结构化文档
无长度限制：分割边界由正则匹配结果决定，非固定长度

简单分词器

专为大语言模型（LLM）输入优化的Token级分割器，解决字符数分割与模型Token数不匹配的问题。

核心特性

按Token数量（而非字符数）进行分割，精准适配LLM上下文限制
支持重叠分割，保持片段间上下文连贯
自动适配中文、Emoji等Unicode字符的Token计算规则
兼容OpenAI、Claude等主流模型的Token计数方式

核心参数说明

参数名	含义
分段长度	每个文本片段的最大Token数量
分段重叠	相邻两个片段之间重叠的Token数量

MarkDown标题层级分割器

基于Markdown标题层级（#符号）的语义化分割器，按文档的标题结构实现逻辑单元拆分，适用于结构化的Markdown文档处理。

核心特性

语义化分割：以Markdown标题（#/##/###等）为分割边界，保留标题对应的完整内容块
层级可控：支持指定分割层级（如仅按一级标题分割、按二级标题分割等）
结构保留：分割后的每个片段包含对应标题及下属全部内容，保持文档逻辑完整性
无长度限制：分割边界由标题层级决定，单个片段为完整的标题逻辑单元

核心参数说明

参数名	含义	作用	示例
Markdown标题等级	触发分割的标题层级（#到######）	控制分割粒度，层级越小分割粒度越大	标题等级=#：仅按一级标题（#）分割，每个片段为一个一级标题下的全部内容标题等级=##：按二级标题（##）分割，每个片段为一个二级标题下的全部内容

节点配置

向量数据库

分割器介绍

手动分割策略（商业版）

核心特性

核心参数说明

简单文档分割器

核心特性

正则文档分割器

核心特性

简单分词器

核心特性

核心参数说明

MarkDown标题层级分割器

核心特性

核心参数说明

分割器介绍 ​

手动分割策略（商业版） ​

核心特性 ​

核心参数说明 ​

简单文档分割器 ​

核心特性 ​

正则文档分割器 ​

核心特性 ​

简单分词器 ​

核心特性 ​

核心参数说明 ​

MarkDown标题层级分割器 ​

核心特性 ​

核心参数说明 ​

分割器介绍

手动分割策略（商业版）

核心特性

核心参数说明

简单文档分割器

核心特性

正则文档分割器

核心特性

简单分词器

核心特性

核心参数说明

MarkDown标题层级分割器

核心特性

核心参数说明