分割器¶

這頁能幫你做什麼¶

分割器 (Chunker) 決定「文件要怎麼切成一小塊一小塊」。文件灌進知識庫 (Knowledge Base) 前會先被切塊，每一塊再轉成向量。切得好不好直接影響檢索品質：切太大會夾雜不相關內容、稀釋語意，切太小又會失去上下文語境。建立好分割器後，就能在載入器 (Loader) 的「來源設定」裡指定它，文件就會照你選的策略切塊。簡單說：知識庫是「資料放哪」，分割器是「資料進倉庫前怎麼切」。

開始前¶

前置需求

Consecutive、Cumulative、Minimal Partition 三種類型需要指定「嵌入模型」，且只支援 Amazon Bedrock - Cohere 類型的嵌入模型 (Embedding Model)。
Fixed Size 類型不需要嵌入模型，建立時不依賴任何其他資源。
分割器本身可獨立建立，實際套用是在載入器 (Loader) 設定來源時指定，不是在這個表單綁定。
若還沒有可用的嵌入模型，可直接在表單「嵌入模型」欄位旁的編輯（）鈕裡新增一個，不必先離開此頁。

操作步驟¶

從左側資源選單進入「分割器」清單頁，點右上角沒有文字的「+」圖示按鈕開啟建立表單。
在「名稱」欄輸入名稱。
在「類型」選擇切塊策略（Fixed Size、Consecutive、Cumulative 或 Minimal Partition）。不同類型會出現不同欄位，選好後的畫面差異見下方完整欄位說明。上方圖即為選「Fixed Size」後的樣子。
依所選類型填寫專屬欄位（如區塊大小、區塊重疊、分隔符；Consecutive／Cumulative／Minimal Partition 還要選「嵌入模型」）。
按右上角的「儲存」按鈕完成建立（見步驟 1 圖右上角）。

完整欄位說明¶

主表單先填共通的「名稱」「類型」，選好類型後再填該類型專屬欄位。

共同欄位（不分類型）¶

欄位	必填	預設	說明
名稱	是	無	分割器的識別名稱。最多 64 個字，不可用 `default` 開頭。
類型	是	無（需選擇）	切塊策略，四選一：Fixed Size、Consecutive、Cumulative 或 Minimal Partition。四者的適用情境與專屬欄位見下方四節。建立後無法修改。

類型在建立後鎖定

編輯既有分割器時「類型」為唯讀。需要不同類型請另建一個分割器。

不確定選哪個類型？

一句話判斷：

來源是 CSV／JSON 等結構化資料，或就想「固定每塊多大、簡單切」、不接任何外部模型 → 選 Fixed Size，最單純、不需嵌入模型。
想讓系統依語意找適合的斷點切、每塊不重疊 → 選 Consecutive（需嵌入模型）。
想讓相鄰區塊互相重疊、保住跨段語境的連貫性 → 選 Cumulative（需嵌入模型）。
想盡量沿著自然語言的段落邊界、最小化破壞語意地切 → 選 Minimal Partition（需嵌入模型）。

其中 Consecutive、Cumulative、Minimal Partition 都需要一個 Amazon Bedrock - Cohere 類型的嵌入模型；只有 Fixed Size 完全不需外部資源。

區塊大小以字元長度為單位

「區塊大小」「最小與最大區塊大小」「區塊重疊」這些數值都以字元長度計算。

Fixed Size¶

把文字切成固定大小的區塊，不考慮語意或段落結構，最單純、不需任何外部模型。

適合：

來源是 CSV、JSON 等結構化輸入，每筆資料長度差不多。
只想用簡單固定規則切塊，不接嵌入模型、不需語意判斷。

選「Fixed Size」後的表單，只有區塊大小、區塊重疊、分隔符，沒有「嵌入模型」欄位：

Fixed Size 類型表單，含「區塊大小」「區塊重疊」滑桿與「分隔符」欄位，無嵌入模型

Fixed Size 類型的專屬欄位：

欄位	必填	預設	說明
區塊大小	是	`200`	滑桿，範圍 1 到 2048、間隔 1。每個區塊的字元長度。
區塊重疊	是	`0`	滑桿，範圍 0 起、上限為「區塊大小 − 1」、間隔 1。相鄰區塊之間重疊的字元長度。
分隔符	是	換行符號 `\n`	可輸入多個值的標籤欄。指定用來切割文字的分隔符，可同時填多個。

Consecutive¶

把文字依大小逐段切分、區塊之間不重疊，由嵌入模型協助判斷切點，適合一般用途。

適合：

文件是連續的長文（文章、報告、手冊），想依語意逐段切、每塊不重疊。
已備好或願意使用 Amazon Bedrock - Cohere 類型的嵌入模型。

選「Consecutive」後，表單會多出「嵌入模型」欄位，並把單一的「區塊大小」換成「最小與最大區塊大小」範圍滑桿（沒有「區塊重疊」）：

Consecutive 類型表單，含「嵌入模型」欄位與「最小與最大區塊大小」範圍滑桿

Consecutive 類型的專屬欄位：

欄位	必填	預設	說明
嵌入模型	是	無	切塊時用來判斷語意的嵌入模型，僅支援 Amazon Bedrock - Cohere 類型。右側編輯（）鈕可挑選或當場新增。
最小與最大區塊大小	是	最小 `100`／最大 `500`	範圍滑桿，範圍 1 到 2048、間隔 1。每塊允許的字元長度下限與上限。
分隔符	是	換行符號 `\n`	可輸入多個值的標籤欄，指定切割用分隔符。

Cumulative¶

每段區塊會包含前一段的部分內容、彼此有重疊，盡量保住跨段落的語境連貫性。

適合：

內容前後文關聯緊密（例如連續論述、對話），切斷後容易失去上下文。
希望檢索時每塊都還帶著一點前文，回答更連貫。

選「Cumulative」後的表單欄位與 Consecutive 相同（嵌入模型、最小與最大區塊大小、分隔符）；差別在切塊時相鄰區塊會自動重疊：

Cumulative 類型表單，含「嵌入模型」欄位與「最小與最大區塊大小」範圍滑桿

Cumulative 類型的專屬欄位：

欄位	必填	預設	說明
嵌入模型	是	無	同 Consecutive，僅支援 Amazon Bedrock - Cohere 類型。
最小與最大區塊大小	是	最小 `100`／最大 `500`	範圍滑桿，範圍 1 到 2048、間隔 1。
分隔符	是	換行符號 `\n`	可輸入多個值的標籤欄。

Minimal Partition¶

依語意與結構最小化切分，盡量沿著自然語言的段落邊界切，把破壞語意的機會壓到最低。

適合：

文件有清楚的段落／章節結構，想盡量沿著自然邊界切、不硬切。
重視每塊語意完整，且願意搭配嵌入模型判斷邊界。

選「Minimal Partition」後，表單比 Consecutive／Cumulative 多出一個「區塊重疊」滑桿：

Minimal Partition 類型表單，含「嵌入模型」、「最小與最大區塊大小」與「區塊重疊」滑桿

Minimal Partition 類型的專屬欄位：

欄位	必填	預設	說明
嵌入模型	是	無	同上，僅支援 Amazon Bedrock - Cohere 類型。
最小與最大區塊大小	是	最小 `100`／最大 `500`	範圍滑桿，範圍 1 到 2048、間隔 1。
區塊重疊	是	`0`	滑桿，範圍 0 起、上限為「最大區塊大小 − 1」、間隔 1。相鄰區塊重疊的字元長度。
分隔符	是	換行符號 `\n`	可輸入多個值的標籤欄。

區塊大小與重疊怎麼抓

這幾個數值沒有標準答案，原則是：

區塊大小：太大會把不相關內容混在同一塊、檢索時稀釋語意；太小又會失去上下文。先用預設值（Fixed Size 200、其他三型 100–500）跑跑看，覺得檢索結果常缺前後文就調大、常抓回整段雜訊就調小。
中文內容建議把區塊大小設在 512 以下（中文字元承載的資訊量比英文高）。
區塊重疊（Fixed Size 與 Minimal Partition 才有）：讓相鄰區塊有一小段重複，避免語境正好被切在區塊邊界而斷掉。重疊設大一點較安全但會增加總區塊數；一般設區塊大小的 10%–20% 即可。

分割器詳細頁¶

建立完成後點進某個分割器，詳細頁上方有三個頁籤；下圖為「一般」頁籤的「詳細資料」卡片，可看到 ID、名稱、類型，以及該類型的切塊參數與目前狀態：

分割器詳細頁的「一般」頁籤，顯示 ID、名稱、類型、區塊大小、區塊重疊、分隔符與狀態，上方有「一般」「依賴資源」「被依賴資源」三個頁籤

頁籤	內容
一般	分割器的基本資料：ID、名稱、類型，以及依類型而定的切塊參數（區塊大小／最小與最大區塊大小、區塊重疊、分隔符、嵌入模型）與狀態。卡片右上角的複製（）鈕可複製這個分割器，旁邊的收合鈕可收合卡片。
依賴資源	這個分割器用到的其他資源（例如 Consecutive／Cumulative／Minimal Partition 會用到的嵌入模型）。
被依賴資源	反過來，有哪些資源用到這個分割器（例如在來源設定選用它的載入器）。

分割器沒有「驗證」功能

分割器詳細頁不提供「驗證憑證／測試連線」按鈕——它不直接連外部系統。要確認切塊策略好不好，請看下方「使用效果」，用實際的同步與檢索結果驗證。

使用效果¶

分割器不能單獨執行，它的效果要「灌進知識庫、查得到」才看得出來。建立好的分割器會在載入器 (Loader) 的「來源設定→分割器」欄位被選用；載入器同步時，就會照這個分割器的策略把來源文件切塊、轉成向量、寫進知識庫 (Knowledge Base)。

切塊品質會直接決定後續檢索好不好：

切太大：一塊裡塞了好幾個主題，檢索時整塊都會被當成一個結果回傳，夾帶大量不相關內容、稀釋掉真正貼題的句子，也更耗 Token。
切太小：句子被切得支離破碎，單獨一塊看不出完整語意，檢索常常只命中片段、答非所問。
重疊不足：關鍵語境正好被切在兩塊的交界，兩塊各拿到一半，哪一塊都答不全。

因此調整分割器後，最直接的驗證方式是：用同一個載入器重新同步一次，再到接這個知識庫的 Agent 或檢索 (Retrieval) 任務問同樣的問題，比較回答是否更完整、更貼題。實際的同步與檢索操作見載入器 (Loader) 的「使用效果」與檢索 (Retrieval) 任務。

下一步¶

載入器 (Loader)：在「來源設定」裡指定要用的分割器。
知識庫 (Knowledge Base)：切好的區塊最終寫入的倉庫。
嵌入模型 (Embedding Model)：Consecutive／Cumulative／Minimal Partition 必填的模型。
檢索器 (Retriever)：決定怎麼從知識庫找出切好的區塊。
檢索 (Retrieval) 任務：在工作流程中查詢切塊後的知識庫。