檢索器¶

這頁能幫你做什麼¶

檢索器 (Retriever) 定義「該怎麼從知識庫 (Knowledge Base) 找出最相關的內容」。同一個知識庫，可以用不同方式搜尋：比對語意（向量）、比對關鍵字，或兩者混合。建立好檢索器後，就能在檢索 (Retrieval) 任務或 Agent 的檢索工具裡指定它，讓系統用你選的策略取回資料。簡單說：知識庫是「資料放哪」，檢索器是「怎麼找」。

開始前¶

前置需求

使用 Embedding 或 Hybrid Search 類型時，會用到嵌入模型 (Embedding Model)。可在表單中指定，若不指定則使用系統預設嵌入模型。
檢索器要對哪個知識庫生效，是在載入器 (Loader) 設定時把知識庫與檢索器綁在一起，不是在這個表單指定。

操作步驟¶

從左側資源選單進入「檢索器」清單頁，點右上角沒有文字的「+」圖示按鈕開啟建立表單。
在「名稱」欄輸入名稱。
在「類型」選擇檢索方式（Embedding、Keyword 或 Hybrid Search）。不同類型會出現不同欄位，選好後的畫面差異見下方完整欄位說明。上方圖即為選「Embedding」後的樣子。
依所選類型填寫專屬欄位（如 Embedding／Hybrid Search 的「嵌入模型」、Hybrid Search 的兩個權重滑桿）。
視需要展開「進階設定」，填寫「過濾查詢」等選項；Hybrid Search 的「分數正規化方式」「分數合併方式」也在此區塊。
按右上角的「儲存」按鈕完成建立（見步驟 1 圖右上角）。

完整欄位說明¶

主表單先填所有類型共通的「名稱」與「類型」，選好類型後再填該類型專屬的欄位。

共同欄位（不分類型）¶

欄位	必填	預設	說明
名稱	是	無	檢索器的識別名稱。最多 64 個字，不可用 `default` 開頭。
類型	是	無（需選擇）	檢索方式，三選一：Embedding、Keyword 或 Hybrid Search。三者的適用情境與專屬欄位見下方三節。建立後無法修改。

類型在建立後鎖定

編輯既有檢索器時「類型」為唯讀。需要不同類型請另建一個檢索器。

不確定選哪個類型？

一句話判斷：

查詢用詞常和文件用字不同、但意思相近（例如使用者問「怎麼退錢」，文件寫「退款政策」）→ 選 Embedding，比對語意而非字面。
查詢是精確的代碼、型號、專有名詞（例如「PRD-2024-A」）→ 選 Keyword，字面命中最準。
兩種狀況都會遇到、或一時拿不定主意 → 選 Hybrid Search，把兩者加權合併，最不容易漏。

Embedding¶

把查詢文字轉換成向量，依向量相似度檢索，能處理「語意相近但用字不同」的查詢。

適合：

使用者用自然語言提問，用詞和文件常常不一樣（同義、換句話說）。
想找「意思相關」的段落，而非剛好含同一個詞的段落。

選「Embedding」後的表單（已展開「進階設定」）：

Embedding 類型表單，含「嵌入模型」欄位與「進階設定」內的「過濾查詢」

Embedding 類型的專屬欄位：

欄位	必填	預設	說明
嵌入模型	否	系統預設嵌入模型	指定用來產生查詢向量的嵌入模型。未指定時使用系統預設模型。可清除。
過濾查詢	否	無	位於「進階設定」摺疊區塊。以 JSON 指定 OpenSearch 的 `query.bool.filter` 篩選條件，先過濾再檢索。用法見下方 tip。

Keyword¶

用關鍵字匹配檢索，適合結構清晰、詞語具體的查詢——查詢字面要剛好出現在文件裡才會命中。

適合：

查詢是精確的代碼、型號、產品編號、專有名詞。
文件用字固定、術語一致，使用者也會用一樣的詞來查。

選「Keyword」後的表單（已展開「進階設定」）。和另外兩個類型相比，Keyword 沒有「嵌入模型」欄位（不需要產生向量）：

Keyword 類型表單，只有「名稱」「類型」與「進階設定」內的「過濾查詢」

Keyword 類型的專屬欄位：

欄位	必填	預設	說明
過濾查詢	否	無	位於「進階設定」摺疊區塊，用法與 Embedding 相同（見下方 tip）。

Hybrid Search¶

結合關鍵字匹配與向量相似度，把兩種分數正規化後合併，取得較平衡的結果——語意相近與字面命中兩種文件都能進入結果。

適合：

查詢同時可能是自然語言與精確詞彙（例如「PRD-2024-A 的保固條款」）。
不確定該偏語意還是偏字面，想兩邊都顧到。

選「Hybrid Search」後的表單會多出兩個權重滑桿，且「進階設定」裡多了「分數正規化方式」與「分數合併方式」：

Hybrid Search 類型表單，含「關鍵字權重」「向量權重」滑桿，以及「進階設定」內的「分數正規化方式」「分數合併方式」「過濾查詢」

Hybrid Search 類型的專屬欄位：

欄位	必填	預設	說明
嵌入模型	否	系統預設嵌入模型	指定用來產生查詢向量的嵌入模型。可清除。
關鍵字權重	是	`0.5`	滑桿，範圍 0 到 1、間隔 0.05。關鍵字匹配在混合分數中的權重。
向量權重	是	`0.5`	滑桿，範圍 0 到 1、間隔 0.05。向量相似度在混合分數中的權重。
分數正規化方式	是	Min-Max 正規化	位於「進階設定」摺疊區塊。合併兩種分數前的正規化方式，讓兩種分數落在可比較的尺度。選項見下。
分數合併方式	是	算術平均	位於「進階設定」摺疊區塊。合併關鍵字分數與向量分數的方式。選項見下。
過濾查詢	否	無	位於「進階設定」摺疊區塊，用法與 Embedding 相同（見下方 tip）。

兩個權重怎麼調

「關鍵字權重」與「向量權重」決定混合分數偏向哪一邊：

兩者都 0.5（預設）：語意與字面各半，最中性的起點。
把「向量權重」調高：更重視語意相近的文件，適合使用者問法很口語、和文件用字差很多時。
把「關鍵字權重」調高：更重視含相同詞彙的文件，適合查詢多為精確術語、代碼時。

重點是兩者的比例，不是絕對值：0.8 對 0.2 與 0.4 對 0.1 偏向程度相同。先用預設值跑跑看，覺得結果太發散就加重關鍵字、太死板就加重向量。

「分數正規化方式」怎麼選¶

選項	適合	說明
Min-Max 正規化（預設）	一般情境	將分數縮放到同一個範圍，讓關鍵字分數與向量分數更容易比較。
L2 正規化	想保留各文件分數相對比例時	依分數向量長度縮放，較能保留文件彼此間的分數差距。

「分數合併方式」怎麼選¶

選項	適合	說明
算術平均（預設）	一般情境，最平衡	直接平均兩種分數，是最常用的合併方式。
幾何平均	希望「兩邊都高」的文件排前面	兩邊分數都高時排名更前；任一邊很低時整體會被明顯拉低。不接受 0 分文件，請確認分數不會為 0 再用。
調和平均	更在意兩邊是否均衡	其中一邊偏低時整體下降更明顯。不接受 0 分文件。

「過濾查詢」怎麼寫

「過濾查詢」讓你在檢索「之前」先用條件篩掉不要的文件，三種類型都有這個欄位。它對應 OpenSearch 的 query.bool.filter，填一段 JSON 陣列，例如：

只查仍有效的文件：[{ "term": { "active": true } }]
只查特定分類：[{ "term": { "category": "FAQ" } }]

留空表示不額外過濾。若該知識庫的 OpenSearch 查詢本身已設過濾條件，會優先套用那組。

檢索器詳細頁¶

建立完成後點進某個檢索器，詳細頁上方有三個頁籤；下圖為「一般」頁籤，可看到 ID、名稱、類型、嵌入模型與目前狀態：

檢索器詳細頁的「一般」頁籤，顯示 ID、名稱、過濾查詢、類型、嵌入模型 ID 與狀態，上方有「一般」「依賴資源」「被依賴資源」三個頁籤

頁籤	內容
一般	檢索器的基本資料：ID、名稱、類型、過濾查詢、嵌入模型 ID 與狀態。卡片右上角的圖示鈕可進入編輯（）、複製（）或刪除（）。
依賴資源	這個檢索器用到的其他資源（例如 Embedding／Hybrid Search 會用到的嵌入模型）。
被依賴資源	反過來，有哪些資源用到這個檢索器（例如綁定它的載入器）。

檢索器沒有「驗證」功能

檢索器詳細頁不提供「驗證憑證／測試連線」按鈕——它不直接連外部系統，要確認它有沒有用，請看下方「使用效果」用實際檢索結果驗證。

使用效果¶

檢索器不能單獨執行，它的效果要「拿去查、查得到」才看得出來。建立好的檢索器會在檢索 (Retrieval) 任務、檢索器 (Retriever) 任務或 Agent 的檢索工具裡被選用，對綁定的知識庫跑出一份相關文件清單。

下圖是一個接了知識庫的 Agent：使用者提問後，Agent 透過檢索工具用檢索器找出相關文件並據此回答——這就是檢索器發揮作用的結果。

接了知識庫的 Agent，使用者提問後透過檢索工具找到文件並作答

三種類型的檢索結果差異

三種類型最直接的差異，是同一個問題、同一個知識庫，分別用 Embedding／Keyword／Hybrid Search 各跑一次，取回的文件會不一樣：

Embedding 會找回「意思相近、用字不同」的段落；
Keyword 只找回「字面剛好命中」的段落；
Hybrid Search 兩種都會出現，並依權重排序。

上方 Agent 檢索效果圖即為檢索器實際發揮作用的樣子。各類型在操作上的差異可參考檢索 (Retrieval) 任務。

下一步¶

知識庫 (Knowledge Base)：檢索器要查的資料倉庫。
載入器 (Loader)：把知識庫與檢索器綁定並灌入資料。
嵌入模型 (Embedding Model)：Embedding／Hybrid Search 所需的模型。
排序器 (Ranker)：對檢索結果再做重新排序。
檢索 (Retrieval) 任務：在工作流程中實際使用檢索器。