AI Agent 概覽與核心概念

從「什麼是 Agent」到「為什麼需要 Agent」,建立開發前的完整認知框架。

什麼是 AI Agent?

AI Agent(人工智慧代理)是一種能夠感知環境(Perceive)、推理決策(Reason)、執行動作(Act)的自動化系統。與一般的 LLM 聊天機器人(Chatbot)不同,Agent 不僅僅是生成文字,它具備「目標導向」的行為模式,能夠主動利用工具來改變現實世界或存取外部資訊。

一句話總結:LLM 是「大腦」,Agent 是具備大腦、眼睛(感知)與手腳(工具)的「智慧體」。

AI Agent vs. 傳統自動化 (RPA)

傳統自動化(如 RPA)是基於「規則」的:如果 A 發生,就執行 B。這種方式在面對非結構化資料或多變環境時極其脆弱。AI Agent 則是基於「推理」的:你給它目標,它根據當前情況判斷該做什麼,這讓它具備極強的適應性。

ReAct:Agent 的思維心法

目前主流 Agent 框架的底層邏輯多半源自於 ReAct 模式(Reasoning and Acting)。這是一個不斷循環的過程:

思考 (Thought)

LLM 分析當前任務與可用資訊,推論出下一步「應該做什麼」以及「為什麼要做」。

行動 (Action)

根據思考結果,決定呼叫具體的工具(例如:搜尋 Google、查詢資料庫、計算數值)。

觀察 (Observation)

讀取工具執行的結果(例如:搜尋到的網頁內容、API 返回的 JSON)。

修正 (Update)

將觀察到的新資訊加入 Context,判斷目標是否達成,若未達成則進入下一輪「思考」。

Agent 的四大支柱

建構一個實用的 Agent 需要以下四個核心組件的協作:

Agent 的演進:從單體到多代理 (Multi-Agent)

隨著任務複雜度提升,單一個 Agent 容易因 Context 太長或邏輯太雜而失效。多代理系統(MAS) 透過「分工合作」來解決:

學習建議:理解概念後,第一步應從單一 Agent 的工具呼叫(Tool Use)開始實作。掌握了 ReAct 循環後,再進入多代理系統的協作設計。

主流框架比較

框架 核心特色 適用場景
LangChain Chain 串接、RAG、豐富的 Tool 生態 單一 Agent、知識問答系統
AutoGen 多 Agent 對話協作、程式碼執行 複雜任務分工、程式碼生成
MCP Server 標準化工具協議、跨平台整合 工具服務化、IDE 整合

Agent 的核心元件

無論使用哪個框架,AI Agent 都包含以下核心元件:

下一步:完成環境設定,安裝所需的依賴套件,準備開始實作。