載入器¶

這頁能幫你做什麼¶

載入器 (Loader) 是把外部資料「灌進知識庫」的橋樑。你指定資料從哪來（Amazon S3、OpenSearch、MySQL、API Endpoint、儲存庫 (Storage)）、要寫進哪個知識庫、用哪些檢索器，平台就會自動讀取、切塊、轉成向量並寫入。還能設定排程定時自動同步，讓知識庫的內容跟著來源更新。簡單說：知識庫是「空倉庫」，載入器負責「進貨」。

開始前¶

前置需求

需先建立要寫入的知識庫 (Knowledge Base)（Vector 類型），且該知識庫尚未被其他載入器佔用。
需先建立至少一個檢索器 (Retriever)（Embedding／Keyword／Hybrid Search 類型）。
來源若是外部系統（S3、OpenSearch、MySQL、API），需先建立對應的連結器 (Connector)；來源若是平台內的儲存庫 (Storage)，需先有對應儲存庫。
自動載入器與部分非結構化檔案會用到大型語言模型 (LLM) 與分割器 (Chunker)。

下拉是空的怎麼辦

建立載入器時，「知識庫」與「檢索器」是兩個下拉選單。如果你是新帳號、還沒建過這些資源，這兩個下拉很可能是空的，會卡住無法繼續。請先依下列順序把前置資源建好，再回到本頁建立載入器：

先建一個 Vector 類型的知識庫 (Knowledge Base)（且尚未被其他載入器佔用）。
再建至少一個檢索器 (Retriever)（Embedding／Keyword／Hybrid Search 類型）。
若來源是外部系統，再建對應的連結器 (Connector)；若來源是平台檔案，建一個儲存庫 (Storage)。
完成後回到「載入器」清單頁重新建立，下拉就會出現可選項目。

操作步驟¶

從左側資源選單進入「載入器」清單頁，點建立入口（空清單時是有文字的建立按鈕；清單已有項目時是右上角無文字的「+」圖示）開啟建立表單。
在「名稱」欄輸入名稱、在「類型」選「標準」或「自動」，並選好要寫入的「知識庫」與要綁定的「檢索器」（可多選）。上方建立表單圖即為「標準」類型填好這幾欄的樣子。
若「類型」選「自動」，下方會多出一個「解析模式」欄位，請選一個解析模式（標準／快速／專業，差異見解析模式怎麼選）。
在「來源」表格按右側的「+」新增，於彈出視窗選好資料來源並設定切塊／樣板等細節後存檔。
視需要展開「進階設定」，在「同步任務」填入 AWS cron 表達式設定自動同步排程（留空則只靠手動觸發）。
按表單右上角的「儲存」按鈕完成建立（見步驟 1 圖右上角），之後可在詳細頁手動觸發同步或等排程執行。

完整欄位說明¶

主表單欄位分成兩部分：先填所有類型共通的「名稱」與「類型」，選好類型後，再填該類型專屬的欄位。

共同欄位（不分類型）¶

欄位	必填	預設	說明
名稱	是	無	載入器的識別名稱。最多 64 個字，不可用 `default` 開頭。
類型	是	無（需選擇）	載入方式，二選一：標準或自動。兩者的適用情境與專屬欄位見下方兩節。建立後無法修改。

類型在建立後鎖定

編輯既有載入器時「類型」為唯讀。需要不同類型請另建一個載入器。

標準類型¶

把資料轉成向量或關鍵字後存入知識庫，且可自己控制切塊（指定分割器與分割樣板）。支援來源最廣：S3、OpenSearch、MySQL、API Endpoint、儲存庫。

適合：

來源是資料庫、API、CSV／JSON 等結構化資料（可對應資料欄位）。
想自己決定每塊多大、用什麼分隔符。

選「標準」後，主表單長這樣（已填好名稱、類型、知識庫與檢索器）：

標準類型的專屬欄位：

欄位	必填	預設	說明
知識庫	是	無	資料要寫入的知識庫。僅能選 Vector 類型，且只列出未被其他載入器佔用、或正由此載入器使用的知識庫。
檢索器	是	無	與此載入器綁定的檢索器，可多選。僅支援 Embedding、Keyword、Hybrid Search 類型。
來源	是	無	表格，至少一筆。每筆代表一個資料來源，點新增後在彈出視窗設定（見來源設定）。
同步任務	否	無	位於「進階設定」摺疊區塊。以 AWS cron 表達式設定自動同步排程；留空表示僅手動同步。

自動類型¶

不用自己設切塊，直接把原始檔案交給大型語言模型自動解析與切分，連圖片內容都讀得出來。來源僅支援 S3 與儲存庫。

適合：

來源是一堆 PDF、Word、簡報、圖片等原始檔案，不想自己設切塊。
文件版面複雜（含表格、多欄、掃描檔），固定規則切不好。

選「自動」後，主表單會把「分割器／分割樣板」換成一個「解析模式」欄位（解析模式怎麼選見下一節）：

自動類型的專屬欄位：

欄位	必填	預設	說明
知識庫	是	無	同標準類型。
檢索器	是	無	同標準類型，可多選。
解析模式	是	無（需選擇）	大型語言模型解析原始檔案的方式，三種選法見下節。
來源	是	無	表格，至少一筆。設定方式見來源設定（自動類型來源僅支援 S3 與儲存庫）。
同步任務	否	無	位於「進階設定」摺疊區塊，同上。

解析模式怎麼選¶

自動類型要再選一個解析模式。三者畫面相同（都是上圖那個「解析模式」下拉），差別在解析方式與速度：

解析模式	適合	怎麼解析
標準	一般文件，要兼顧解析品質與速度	用大型語言模型做較完整的解析與切分
快速	檔案數量多、想優先衝處理速度	用較快的固定切分方式
專業	版面複雜（表格、多欄、掃描檔），固定規則切不好	把原始檔以附件交給大型語言模型，解析最完整

來源設定（彈出視窗）¶

在「來源」表格按新增時會開啟一個設定視窗。先選「類型」，再依來源類型填寫對應的連結器／儲存庫欄位，最後設定切塊與樣板。下圖以最單純的 Storage 來源為例（選好儲存庫，其餘欄位皆選填）：

若改選外部來源（如 Amazon S3），則會改為要求「連結器」與該來源專屬欄位（S3 儲存貯體、S3 字首…）：

欄位	必填	預設	說明
類型	是	無	資料來源類型。標準類型可選 Amazon S3、OpenSearch、MySQL、API Endpoint、Storage；自動類型只可選 Amazon S3、Storage。選定後出現對應的連結器設定欄位。
連結器／儲存庫相關欄位	視來源	—	依來源類型不同：S3 需選連結器並填 S3 儲存貯體、S3 字首、檔案副檔名；OpenSearch 需選連結器並填 OpenSearch 索引名稱、最後修改時間欄位、HTTP 標頭；MySQL 需選連結器並填資料庫名稱、資料表名稱、最後修改時間欄位；API Endpoint 需選連結器；Storage 需選儲存庫、資料夾與檔案副檔名。各連結器欄位細節見連結器 (Connector)。
分割器	否	無	標準類型來源可選的分割器，控制此來源文件如何切塊。可清除。詳見分割器 (Chunker)。
分割樣板	視情況	`{{ content }}`	切塊時的內容格式（Jinja 樣板，用法見下方說明）。僅在已選分割器時出現、且必填；當來源是 S3／Storage 且全部為非結構化檔案時鎖定為預設值（唯讀）。
檢索器樣板	否	`{{ chunk }}`	每個切塊最後被檢索／回傳的文字格式（Jinja 樣板，用法見下方說明）。綁定的檢索器全部為 Keyword 類型時不出現。
資料欄位	否	無	設定 OpenSearch 欄位對應（來源欄位至目的欄位）。僅在結構化來源（CSV／TSV／JSON／JSONL，或 OpenSearch／MySQL／API 來源）可用；其他情況為停用狀態。
分割前擴增欄位	否	無	表格（僅標準類型）。在切塊「之前」用大型語言模型替每筆資料產生新欄位，詳見「擴增欄位設定」。
分割後擴增欄位	否	無	表格。在切塊「之後」替每個區塊用大型語言模型產生新欄位。標準與自動類型皆有此欄位。

「分割樣板」和「檢索器樣板」差在切塊的前與後

兩個都是 Jinja 樣板，但作用在切塊的不同階段，別搞混：

分割樣板（切塊「前」，預設 {{ content }}）：決定「要被切的那段文字長什麼樣」。
檢索器樣板（切塊「後」，預設 {{ chunk }}）：決定「切好的每一塊，最後要以什麼形式被檢索與回傳」（檢索時這段文字會放在結果的 retriever_chunk 欄位）。

一句話：分割樣板管「切什麼」，檢索器樣板管「切完每塊長怎樣、回傳什麼」。

以一筆有 title、body、category 三個欄位的 FAQ 資料為例，幾種常見寫法：

分割樣板 {{ title }} - {{ body }}：把標題和內文一起交給分割器切，讓每塊都保有問題脈絡（預設 {{ content }} 只切單一內容欄位）。
檢索器樣板 {{ title }} - {{ chunk }}：每段檢索結果開頭都帶上問題標題。
檢索器樣板 [{{ category }}] {{ chunk }}：每段結果加上分類前綴，方便後續大型語言模型判讀這段來自哪類文件。

自動來源的差異

自動類型的來源設定不含「分割器／分割樣板」，但會多一個「大型語言模型」選擇欄位用來解析檔案；當可能包含非結構化檔案時為必填。其餘（檢索器樣板、資料欄位、分割後擴增欄位）與標準類型相同。

OpenSearch／MySQL／API Endpoint 來源視部署而定

來源「類型」下拉是否出現 OpenSearch、MySQL、API Endpoint，會依平台部署設定而定；部分部署只開放 Amazon S3 與 Storage 兩種來源。若你的下拉看不到這三種，代表此環境未開放，請改用 S3 或 Storage 作為來源。

各來源支援的檔案副檔名

當來源是 Amazon S3 或 Storage 時，「檔案副檔名」欄位可挑選要納入的副檔名（留空表示不限）。兩種載入器類型支援的格式不同：

標準：.csv、.tsv、.json、.jsonl、.gz、.html、.md、.txt、.pdf、.doc／.docx、.ppt／.pptx、.xls／.xlsx。
自動：.csv、.tsv、.json、.jsonl、.md、.txt、.pdf、.docx、.ppt／.pptx、.xls／.xlsx，並額外支援圖片（.jpg、.jpeg、.png、.gif、.webp），可交由大型語言模型解析圖片內容。

其中 .csv、.tsv、.json、.jsonl（標準類型另含 .gz）視為「結構化檔案」，選用這些（且沒混入其他格式）時「資料欄位」才會啟用；混入 .pdf、.docx 等非結構化格式時「資料欄位」會停用。

最小可動來源：先只接一個 Storage

這個彈出視窗欄位很多，但大多是選填。新手第一次只要設好「最少必填」就能跑：

「類型」選 Storage。
選一個你已建好的儲存庫 (Storage)，並（視需要）填資料夾與檔案副檔名。
其餘欄位（分割器、分割樣板、檢索器樣板、資料欄位、擴增欄位）全部留空。
存檔回到主表單即可。

等熟悉後再依需求加分割器或擴增欄位等進階設定。

擴增欄位設定（彈出視窗）¶

在「分割前／後擴增欄位」表格按新增時開啟，用大型語言模型替資料產生額外欄位。

欄位	必填	預設	說明
擴增欄位名稱	是	無	新欄位的名稱，不可與既有欄位重複，且不可用 `content`、`chunk`、`retriever_chunk`。
大型語言模型	是	無	選擇用來產生內容的大型語言模型資源；旁邊的調整（）鈕可微調該模型參數。
對話	是	無	選好模型後出現。提供給模型的提示訊息內容。
使用 JSON Schema	否	關閉	開關。開啟後模型改用結構化輸出，需再定義 JSON Schema。
JSON Schema	視情況	預設結構	開啟上方開關後出現，定義結構化輸出的格式，必填。
備用大型語言模型	否	無	主模型失敗時依序嘗試的備用模型清單。
允許重試	否	關閉	開關。開啟後在無法生成回應時重新生成，每次重試溫度值加 0.1。

分割前／分割後擴增欄位的範例

擴增欄位就是「請大型語言模型替資料多算一個欄位」，算完可在分割樣板、檢索器樣板或檢索時引用。差別在算的時機與對象：

分割前（對整筆資料算一次，僅標準類型）：
- summary——「對話」填「用一句話摘要以下內容：{{ body }}」，產生整篇摘要，之後可在檢索器樣板用 {{ summary }}。
- language——判斷整篇語言（如 zh／en），供後續過濾或分流。
- doc_type——把整篇分類成「FAQ／教學／公告」之一。
分割後（對每個切塊各算一次）：
- keywords——「對話」填「列出這段文字的 3–5 個關鍵字：{{ chunk }}」，增強關鍵字檢索命中率。
- possible_question——產生「這段內容能回答的問題」，做檢索增強。
- chunk_summary——把每塊濃縮成一句話。

擴增欄位名稱不可用 content、chunk、retriever_chunk，也不可與既有欄位重複。

載入器詳細頁的頁籤¶

建立完成後點進某個載入器，詳細頁上方有四個頁籤；下圖為「一般」頁籤，可看到名稱、類型、綁定的知識庫與檢索器，以及下方的來源設定：

頁籤	內容
一般	載入器的基本資料：名稱、類型、綁定的知識庫與檢索器、各筆來源設定。可從這裡進入編輯、複製或刪除。
同步任務	這個載入器跑過與正在跑的同步任務 (Sync Job) 清單，也是手動觸發同步的入口。詳見下方「同步的執行方式」。
依賴資源	這個載入器用到的其他資源（知識庫、檢索器、連結器、分割器…）。
被依賴資源	反過來，有哪些資源用到這個載入器。

同步的執行方式¶

載入器建立後不會自動把資料灌進去，要「觸發同步」才會實際讀取來源、切塊、轉向量並寫入知識庫。同步任務 (Sync Job) 就是載入器實際執行的一次 ETL 工作：從來源擷取資料、用綁定的資源轉換（切塊、轉向量、擴增欄位），最後把結果（文字、向量等）寫入知識庫。觸發方式有兩種：

手動同步：到載入器詳細頁的「同步任務」頁籤按「開始新的同步任務」（右上角的鈕；清單為空時則是中央的「開始」按鈕），在跳出的「開始同步任務」對話框設定選項後執行，立即跑一次。
排程同步：在建立／編輯時展開「進階設定」，點「同步任務」欄位右側的編輯（）圖示開啟設定對話框，逐欄組出一條 AWS cron 排程，存檔後平台就依排程自動執行；「同步任務」留空則只靠手動觸發。

點該編輯（）圖示，會開啟「新增同步任務」對話框，用六個欄位拼出排程時間：

欄位	預設	設定什麼
分鐘	`0`	在第幾分鐘執行。
小時	`0`	在第幾小時執行。
日期	`*`	每月第幾天執行（`*` 為每天）。
月份	`*`	哪幾個月執行（`*` 為每月）。
星期	`?`	星期幾執行。
年份	`*`	哪幾年執行（`*` 為每年）。

各欄可點下拉挑常見值。預設組合 0 0 * * ? * 代表「每天 00:00 自動同步一次」。

「日期」與「星期」不能同時指定

AWS cron 規定「日期」與「星期」其中一個必須留為 ?（預設星期為 ?）；兩者都填具體值會衝突。

「同步任務」頁籤的清單與操作¶

每觸發一次同步就會在「同步任務」頁籤新增一筆紀錄。清單以表格呈現，欄位如下：

欄位	說明
ID	該次同步任務的識別碼。點進去可看這次同步的細節。
模式	這次同步的方式：`Incremental`（增量，只處理有變動的資料）或 `Full`（完整，整庫重建）。由觸發時「強制執行完整同步」開關決定，見下節。
狀態	執行狀態（如執行中、成功、失敗等）。
最後更新	這筆同步任務最後一次狀態更新的時間。

頁籤上的可用操作：

操作	位置	說明
開始新的同步任務	右上角鈕	開啟「開始同步任務」對話框，手動觸發一次同步。
重新整理	右上角鈕	重新載入清單，更新各筆任務的最新狀態。
停止	每一列的選單（）內	中止該筆同步任務。僅在任務「執行中」時可點，其餘狀態為停用。

點任一筆同步任務的 ID 可進入該次同步的細節頁，看到這次跑了多少資料、花多久、成功或失敗：

細節頁欄位：

欄位	說明
ID	該次同步任務的識別碼。
載入器 ID	觸發這次同步的載入器，可點擊回到載入器詳細頁。
執行 ARN	這次同步在底層執行的識別碼，用於技術除錯，一般使用者可忽略。旁邊的開啟連結會導向底層 AWS 主控台，一般使用者多半會看到錯誤頁，可忽略，詳見通用介面元件。
模式	`Incremental`（增量）或 `Full`（完整），見下節。
資料物件數量	這次同步實際處理的來源資料筆數。
搜尋區塊數量	切塊後寫入知識庫的區塊數。
執行時間	這次同步從開始到結束的總耗時。
開始時間／停止時間	這次同步的起訖時間。
狀態	這次同步的結果（成功、失敗、執行中等）。
最後更新	狀態最後一次更新的時間。

增量同步與完整同步¶

預設情況下同步是「增量」的——平台只處理新增或內容有變更的資料，沒變動的就跳過，避免每次都整庫重建，省時也省成本。是否變更的判斷依據是來源資料的「最後修改時間」加上內容比對；對 OpenSearch／MySQL 等來源，可在來源設定指定「最後修改時間欄位」（例如 updated_ts）作為判斷基準。

觸發同步時可調整兩個選項：

選項	預設	說明
強制執行完整同步	關閉	開啟後會清除知識庫既有資料並全部重新同步，忽略增量判斷。適合來源結構大幅調整、或懷疑資料不一致想整個重建時使用。
忽略同步失敗的資料	關閉	開啟後遇到個別資料同步失敗時略過該筆、繼續處理其餘資料，不讓單筆錯誤中斷整批。

API／HTTP 來源只新增或更新、不刪除

以 API Endpoint／HTTP 為來源的載入器，增量同步時即使來源少了某筆資料，也不會把知識庫裡對應的舊資料刪掉（僅新增或更新）。需要清掉舊資料時，改用「強制執行完整同步」。

使用效果¶

載入器的價值要「同步完、查得到」才看得出來。觸發同步後可從兩個地方確認資料真的進去了：

1. 同步任務細節頁出現實際筆數¶

到「同步任務」頁籤點進剛跑完的那一筆，「資料物件數量」與「搜尋區塊數量」會顯示這次實際讀入並切塊寫入的數量（畫面見上方單筆同步任務細節頁）。兩個數字大於 0，就代表來源內容已成功寫進知識庫。

2. 知識庫已經可以被問答¶

資料進了知識庫後，就能被檢索器 (Retriever)、檢索 (Retrieval) 任務或 Agent 的檢索工具查到。下圖是一個接了此知識庫的 Agent：使用者問「退換貨政策」，Agent 透過知識庫檢索工具找到剛灌進去的產品文件並據此回答——這代表載入器確實把來源內容變成了可被語意檢索的資料。

接了此知識庫的 Agent，使用者提問後透過知識庫檢索工具找到載入的文件並作答

要把知識庫接給 Agent 或工作流程使用，見檢索 (Retrieval) 任務與檢索工具。

下一步¶

知識庫 (Knowledge Base)：載入器寫入的目標倉庫。
檢索器 (Retriever)：與載入器綁定、決定怎麼查。
分割器 (Chunker)：來源切塊策略。
連結器 (Connector)：S3／OpenSearch／MySQL／API 來源所需。
儲存庫 (Storage)：以平台上傳檔案作為來源時使用。