跳轉到

讀取網址

這頁能幫你做什麼

Read URL 任務從指定的網址抓取網頁內容,並轉成乾淨的 Markdown 或保留原始 HTML,方便後續交給大型語言模型 (LLM) 處理、匯入知識庫或做資料分析。常見情境:

  • 抓取文章、部落格或新聞內容,餵給 RAG 流程。
  • 擷取文件頁面,匯入知識庫。
  • 從網頁取得產品描述或規格。
  • 把網頁內容轉成 Markdown,方便 LLM 閱讀。

開始前

一般網址不需任何前置資源。若目標網站需要驗證或特定連線設定,可選用一個 API 類型的連結器 (Connector) 來提供請求標頭(見下方欄位說明)。連結器建立方式見 Connector 資源頁

操作步驟

  1. 新增一個 Read URL 任務節點,點選它開啟右側設定表單。

    讀取網址任務設定面板

  2. 在「名稱」填步驟名稱。

  3. 在「網址」填要讀取的網頁網址(必須是 http://https:// 開頭的合法網址),也可用 JSONPath 從輸入帶入(路徑寫法見 JSONPath 語法)。
  4. 視需要展開「進階任務設定」設定連結器、HTTP 標頭、格式與文字數量上限。

    讀取網址任務展開「進階任務設定」後的欄位

  5. 設定「下一個狀態」,視需要填「附註」,再用測試按鈕()試跑。

完整欄位說明

下表只列 Read URL 任務特有的欄位。名稱、附註、下一個狀態、輸入與輸出、錯誤處理等共用分區,請見 Action 通用設定

設定分頁(基本欄位)

欄位 必填 預設 說明
網址 https:// 要讀取的網頁網址,支援靜態頁面。必須是 http://https:// 開頭的合法網址。可用 JSONPath 從輸入帶入,例如 $.article_url

進階任務設定(摺疊區塊)

展開設定分頁底部的「進階任務設定」可看到下列 Read URL 特有欄位:

欄位 必填 預設 說明
連結器 選用一個 API 類型的連結器來提供請求標頭,可安全存放敏感資訊(如驗證金鑰)。若直接在 HTTP 標頭填寫,值會以明文儲存且不受保護。可清除、也可從輸入動態帶入。建立方式見 Connector 資源頁
HTTP 標頭 空(無自訂標頭) 要附加到請求的自訂 HTTP 標頭,例如 User-AgentAuthorizationCookie。某些網站會擋預設爬取,可加自訂 User-Agent 降低被封鎖機率。需隱藏敏感資訊時建議改用連結器。可切換成 JSON 輸入。
格式 Markdown 從網頁讀出的內容格式。可選 Markdown(輕量標記語言,呈現結構化資訊,建議用於 LLM)或 HTML(原生網頁格式,保留完整排版與結構)。
文字數量上限 4096 讀取內容的最大字數,用來限制長度避免內容過長壓垮 LLM。最小 1024。清空代表不設上限、讀取完整內容。

Note

「文字數量上限」欄位可清空;清空時不套用字數限制。預設 4096、最小 1024 以後端實際設定為準。

實際範例與預期結果

設定內容:

  • 網址:$.article_url
  • 格式:Markdown
  • 文字數量上限:2000

工作流程輸入:

{
  "article_url": "https://example.com/articles/ai-trends"
}

測試輸出(讀到的內容放在 read_url_output):

{
  "errors": null,
  "action_type": "read_url_action",
  "read_url_output": "# 2025 年 AI 趨勢\n\n人工智慧持續快速發展,出現了幾個關鍵趨勢..."
}

Note

輸出以後端實際回傳為準:讀到的內容放在 read_url_outputaction_type 固定為 read_url_action。選 Markdown 時內容為 Markdown 文字,選 HTML 時為 HTML。

下一步