讀取網址¶

這頁能幫你做什麼¶

Read URL 任務從指定的網址抓取網頁內容，並轉成乾淨的 Markdown 或保留原始 HTML，方便後續交給大型語言模型 (LLM) 處理、匯入知識庫或做資料分析。常見情境：

開始前

一般網址不需任何前置資源。若目標網站需要驗證或特定連線設定，可選用一個 API 類型的連結器 (Connector) 來提供請求標頭（見下方欄位說明）。連結器建立方式見 Connector 資源頁。

新增一個 Read URL 任務節點，點選它開啟右側設定表單。
在「名稱」填步驟名稱。
在「網址」填要讀取的網頁網址（必須是 http:// 或 https:// 開頭的合法網址），也可用 JSONPath 從輸入帶入（路徑寫法見 JSONPath 語法）。
視需要展開「進階任務設定」設定連結器、HTTP 標頭、格式與文字數量上限。
設定「下一個狀態」，視需要填「附註」，再用測試按鈕（）試跑。

下表只列 Read URL 任務特有的欄位。名稱、附註、下一個狀態、輸入與輸出、錯誤處理等共用分區，請見 Action 通用設定。

欄位	必填	預設	說明
網址	是	`https://`	要讀取的網頁網址，支援靜態頁面。必須是 `http://` 或 `https://` 開頭的合法網址。可用 JSONPath 從輸入帶入，例如 `$.article_url`。

展開設定分頁底部的「進階任務設定」可看到下列 Read URL 特有欄位：

欄位	必填	預設	說明
連結器	否	無	選用一個 API 類型的連結器來提供請求標頭，可安全存放敏感資訊（如驗證金鑰）。若直接在 HTTP 標頭填寫，值會以明文儲存且不受保護。可清除、也可從輸入動態帶入。建立方式見 Connector 資源頁。
HTTP 標頭	否	空（無自訂標頭）	要附加到請求的自訂 HTTP 標頭，例如 `User-Agent`、`Authorization`、`Cookie`。某些網站會擋預設爬取，可加自訂 `User-Agent` 降低被封鎖機率。需隱藏敏感資訊時建議改用連結器。可切換成 JSON 輸入。
格式	否	Markdown	從網頁讀出的內容格式。可選 `Markdown`（輕量標記語言，呈現結構化資訊，建議用於 LLM）或 `HTML`（原生網頁格式，保留完整排版與結構）。
文字數量上限	否	4096	讀取內容的最大字數，用來限制長度避免內容過長壓垮 LLM。最小 1024。清空代表不設上限、讀取完整內容。

Note

「文字數量上限」欄位可清空；清空時不套用字數限制。預設 4096、最小 1024 以後端實際設定為準。

設定內容：

工作流程輸入：

{
  "article_url": "https://example.com/articles/ai-trends"
}

測試輸出（讀到的內容放在 read_url_output）：

{
  "errors": null,
  "action_type": "read_url_action",
  "read_url_output": "# 2025 年 AI 趨勢\n\n人工智慧持續快速發展，出現了幾個關鍵趨勢..."
}

Note

輸出以後端實際回傳為準：讀到的內容放在 read_url_output，action_type 固定為 read_url_action。選 Markdown 時內容為 Markdown 文字，選 HTML 時為 HTML。