跳轉到

分割器

這頁能幫你做什麼

分割器 (Chunker) 決定「文件要怎麼切成一小塊一小塊」。文件灌進知識庫 (Knowledge Base) 前會先被切塊,每一塊再轉成向量。切得好不好直接影響檢索品質:切太大會夾雜不相關內容、稀釋語意,切太小又會失去上下文語境。建立好分割器後,就能在載入器 (Loader) 的「來源設定」裡指定它,文件就會照你選的策略切塊。簡單說:知識庫是「資料放哪」,分割器是「資料進倉庫前怎麼切」。

開始前

前置需求

  • ConsecutiveCumulativeMinimal Partition 三種類型需要指定「嵌入模型」,且只支援 Amazon Bedrock - Cohere 類型的嵌入模型 (Embedding Model)
  • Fixed Size 類型不需要嵌入模型,建立時不依賴任何其他資源。
  • 分割器本身可獨立建立,實際套用是在載入器 (Loader) 設定來源時指定,不是在這個表單綁定。
  • 若還沒有可用的嵌入模型,可直接在表單「嵌入模型」欄位旁的編輯()鈕裡新增一個,不必先離開此頁。

操作步驟

  1. 從左側資源選單進入「分割器」清單頁,點右上角沒有文字的「+」圖示按鈕開啟建立表單。

    建立分割器表單,選「Fixed Size」類型後的樣子

  2. 在「名稱」欄輸入名稱。

  3. 在「類型」選擇切塊策略(Fixed Size、Consecutive、Cumulative 或 Minimal Partition)。不同類型會出現不同欄位,選好後的畫面差異見下方完整欄位說明。上方圖即為選「Fixed Size」後的樣子。
  4. 依所選類型填寫專屬欄位(如區塊大小、區塊重疊、分隔符;Consecutive/Cumulative/Minimal Partition 還要選「嵌入模型」)。
  5. 按右上角的「儲存」按鈕完成建立(見步驟 1 圖右上角)。

完整欄位說明

主表單先填共通的「名稱」「類型」,選好類型後再填該類型專屬欄位。

共同欄位(不分類型)

欄位 必填 預設 說明
名稱 分割器的識別名稱。最多 64 個字,不可用 default 開頭。
類型 無(需選擇) 切塊策略,四選一:Fixed Size、Consecutive、Cumulative 或 Minimal Partition。四者的適用情境與專屬欄位見下方四節。建立後無法修改

類型在建立後鎖定

編輯既有分割器時「類型」為唯讀。需要不同類型請另建一個分割器。

不確定選哪個類型?

一句話判斷:

  • 來源是 CSV/JSON 等結構化資料,或就想「固定每塊多大、簡單切」、不接任何外部模型 → 選 Fixed Size,最單純、不需嵌入模型。
  • 想讓系統依語意找適合的斷點切、每塊不重疊 → 選 Consecutive(需嵌入模型)。
  • 想讓相鄰區塊互相重疊、保住跨段語境的連貫性 → 選 Cumulative(需嵌入模型)。
  • 想盡量沿著自然語言的段落邊界、最小化破壞語意地切 → 選 Minimal Partition(需嵌入模型)。

其中 Consecutive、Cumulative、Minimal Partition 都需要一個 Amazon Bedrock - Cohere 類型的嵌入模型;只有 Fixed Size 完全不需外部資源。

區塊大小以字元長度為單位

「區塊大小」「最小與最大區塊大小」「區塊重疊」這些數值都以字元長度計算。

Fixed Size

把文字切成固定大小的區塊,不考慮語意或段落結構,最單純、不需任何外部模型。

適合:

  • 來源是 CSV、JSON 等結構化輸入,每筆資料長度差不多。
  • 只想用簡單固定規則切塊,不接嵌入模型、不需語意判斷。

選「Fixed Size」後的表單,只有區塊大小、區塊重疊、分隔符,沒有「嵌入模型」欄位

Fixed Size 類型表單,含「區塊大小」「區塊重疊」滑桿與「分隔符」欄位,無嵌入模型

Fixed Size 類型的專屬欄位:

欄位 必填 預設 說明
區塊大小 200 滑桿,範圍 1 到 2048、間隔 1。每個區塊的字元長度。
區塊重疊 0 滑桿,範圍 0 起、上限為「區塊大小 − 1」、間隔 1。相鄰區塊之間重疊的字元長度。
分隔符 換行符號 \n 可輸入多個值的標籤欄。指定用來切割文字的分隔符,可同時填多個。

Consecutive

把文字依大小逐段切分、區塊之間不重疊,由嵌入模型協助判斷切點,適合一般用途。

適合:

  • 文件是連續的長文(文章、報告、手冊),想依語意逐段切、每塊不重疊。
  • 已備好或願意使用 Amazon Bedrock - Cohere 類型的嵌入模型。

選「Consecutive」後,表單會多出「嵌入模型」欄位,並把單一的「區塊大小」換成「最小與最大區塊大小」範圍滑桿(沒有「區塊重疊」):

Consecutive 類型表單,含「嵌入模型」欄位與「最小與最大區塊大小」範圍滑桿

Consecutive 類型的專屬欄位:

欄位 必填 預設 說明
嵌入模型 切塊時用來判斷語意的嵌入模型僅支援 Amazon Bedrock - Cohere 類型。右側編輯()鈕可挑選或當場新增。
最小與最大區塊大小 最小 100/最大 500 範圍滑桿,範圍 1 到 2048、間隔 1。每塊允許的字元長度下限與上限。
分隔符 換行符號 \n 可輸入多個值的標籤欄,指定切割用分隔符。

Cumulative

每段區塊會包含前一段的部分內容、彼此有重疊,盡量保住跨段落的語境連貫性。

適合:

  • 內容前後文關聯緊密(例如連續論述、對話),切斷後容易失去上下文。
  • 希望檢索時每塊都還帶著一點前文,回答更連貫。

選「Cumulative」後的表單欄位與 Consecutive 相同(嵌入模型、最小與最大區塊大小、分隔符);差別在切塊時相鄰區塊會自動重疊:

Cumulative 類型表單,含「嵌入模型」欄位與「最小與最大區塊大小」範圍滑桿

Cumulative 類型的專屬欄位:

欄位 必填 預設 說明
嵌入模型 同 Consecutive,僅支援 Amazon Bedrock - Cohere 類型。
最小與最大區塊大小 最小 100/最大 500 範圍滑桿,範圍 1 到 2048、間隔 1。
分隔符 換行符號 \n 可輸入多個值的標籤欄。

Minimal Partition

依語意與結構最小化切分,盡量沿著自然語言的段落邊界切,把破壞語意的機會壓到最低。

適合:

  • 文件有清楚的段落/章節結構,想盡量沿著自然邊界切、不硬切。
  • 重視每塊語意完整,且願意搭配嵌入模型判斷邊界。

選「Minimal Partition」後,表單比 Consecutive/Cumulative 多出一個「區塊重疊」滑桿

Minimal Partition 類型表單,含「嵌入模型」、「最小與最大區塊大小」與「區塊重疊」滑桿

Minimal Partition 類型的專屬欄位:

欄位 必填 預設 說明
嵌入模型 同上,僅支援 Amazon Bedrock - Cohere 類型。
最小與最大區塊大小 最小 100/最大 500 範圍滑桿,範圍 1 到 2048、間隔 1。
區塊重疊 0 滑桿,範圍 0 起、上限為「最大區塊大小 − 1」、間隔 1。相鄰區塊重疊的字元長度。
分隔符 換行符號 \n 可輸入多個值的標籤欄。

區塊大小與重疊怎麼抓

這幾個數值沒有標準答案,原則是:

  • 區塊大小:太大會把不相關內容混在同一塊、檢索時稀釋語意;太小又會失去上下文。先用預設值(Fixed Size 200、其他三型 100500)跑跑看,覺得檢索結果常缺前後文就調大、常抓回整段雜訊就調小。
  • 中文內容建議把區塊大小設在 512 以下(中文字元承載的資訊量比英文高)。
  • 區塊重疊(Fixed Size 與 Minimal Partition 才有):讓相鄰區塊有一小段重複,避免語境正好被切在區塊邊界而斷掉。重疊設大一點較安全但會增加總區塊數;一般設區塊大小的 10%–20% 即可。

分割器詳細頁

建立完成後點進某個分割器,詳細頁上方有三個頁籤;下圖為「一般」頁籤的「詳細資料」卡片,可看到 ID、名稱、類型,以及該類型的切塊參數與目前狀態:

分割器詳細頁的「一般」頁籤,顯示 ID、名稱、類型、區塊大小、區塊重疊、分隔符與狀態,上方有「一般」「依賴資源」「被依賴資源」三個頁籤

頁籤 內容
一般 分割器的基本資料:ID、名稱、類型,以及依類型而定的切塊參數(區塊大小/最小與最大區塊大小、區塊重疊、分隔符、嵌入模型)與狀態。卡片右上角的複製()鈕可複製這個分割器,旁邊的收合鈕可收合卡片。
依賴資源 這個分割器用到的其他資源(例如 Consecutive/Cumulative/Minimal Partition 會用到的嵌入模型)。
被依賴資源 反過來,有哪些資源用到這個分割器(例如在來源設定選用它的載入器)。

分割器沒有「驗證」功能

分割器詳細頁不提供「驗證憑證/測試連線」按鈕——它不直接連外部系統。要確認切塊策略好不好,請看下方「使用效果」,用實際的同步與檢索結果驗證。

使用效果

分割器不能單獨執行,它的效果要「灌進知識庫、查得到」才看得出來。建立好的分割器會在載入器 (Loader) 的「來源設定→分割器」欄位被選用;載入器同步時,就會照這個分割器的策略把來源文件切塊、轉成向量、寫進知識庫 (Knowledge Base)

切塊品質會直接決定後續檢索好不好:

  • 切太大:一塊裡塞了好幾個主題,檢索時整塊都會被當成一個結果回傳,夾帶大量不相關內容、稀釋掉真正貼題的句子,也更耗 Token。
  • 切太小:句子被切得支離破碎,單獨一塊看不出完整語意,檢索常常只命中片段、答非所問。
  • 重疊不足:關鍵語境正好被切在兩塊的交界,兩塊各拿到一半,哪一塊都答不全。

因此調整分割器後,最直接的驗證方式是:用同一個載入器重新同步一次,再到接這個知識庫的 Agent 或檢索 (Retrieval) 任務問同樣的問題,比較回答是否更完整、更貼題。實際的同步與檢索操作見載入器 (Loader) 的「使用效果」與檢索 (Retrieval) 任務

下一步