什麼是 AI Agent?
AI Agent(人工智慧代理)是一種能夠感知環境(Perceive)、推理決策(Reason)、執行動作(Act)的自動化系統。與一般的 LLM 聊天機器人(Chatbot)不同,Agent 不僅僅是生成文字,它具備「目標導向」的行為模式,能夠主動利用工具來改變現實世界或存取外部資訊。
一句話總結:LLM 是「大腦」,Agent 是具備大腦、眼睛(感知)與手腳(工具)的「智慧體」。
AI Agent vs. 傳統自動化 (RPA)
傳統自動化(如 RPA)是基於「規則」的:如果 A 發生,就執行 B。這種方式在面對非結構化資料或多變環境時極其脆弱。AI Agent 則是基於「推理」的:你給它目標,它根據當前情況判斷該做什麼,這讓它具備極強的適應性。
ReAct:Agent 的思維心法
目前主流 Agent 框架的底層邏輯多半源自於 ReAct 模式(Reasoning and Acting)。這是一個不斷循環的過程:
思考 (Thought)
LLM 分析當前任務與可用資訊,推論出下一步「應該做什麼」以及「為什麼要做」。
行動 (Action)
根據思考結果,決定呼叫具體的工具(例如:搜尋 Google、查詢資料庫、計算數值)。
觀察 (Observation)
讀取工具執行的結果(例如:搜尋到的網頁內容、API 返回的 JSON)。
修正 (Update)
將觀察到的新資訊加入 Context,判斷目標是否達成,若未達成則進入下一輪「思考」。
Agent 的四大支柱
建構一個實用的 Agent 需要以下四個核心組件的協作:
- 規劃 (Planning):將複雜的大任務拆解成子任務(Task Decomposition),並具備自我反思(Self-Reflection)能力以修正路徑。
- 工具 (Tools):Agent 的外部介面。包括搜尋引擎、代碼執行器、各種 API 整合。這是 Agent 解決現實問題的能力邊界。
- 記憶 (Memory):包括短期記憶(對話上下文)與長期記憶(透過 RAG 或向量資料庫儲存的歷史知識)。
- 大腦 (LLM):作為核心推理引擎,負責解析指令、生成規劃並判斷工具執行結果。
Agent 的演進:從單體到多代理 (Multi-Agent)
隨著任務複雜度提升,單一個 Agent 容易因 Context 太長或邏輯太雜而失效。多代理系統(MAS) 透過「分工合作」來解決:
- 角色化:一個 Agent 負責寫程式(Coder),另一個負責測試(Tester)。
- 群組對話:Agent 之間互相傳遞訊息、評審彼此的輸出。
- 層級管理:由一個 Manager Agent 負責分配任務,子 Agent 執行具體細節。
學習建議:理解概念後,第一步應從單一 Agent 的工具呼叫(Tool Use)開始實作。掌握了 ReAct 循環後,再進入多代理系統的協作設計。
主流框架比較
| 框架 | 核心特色 | 適用場景 |
|---|---|---|
| LangChain | Chain 串接、RAG、豐富的 Tool 生態 | 單一 Agent、知識問答系統 |
| AutoGen | 多 Agent 對話協作、程式碼執行 | 複雜任務分工、程式碼生成 |
| MCP Server | 標準化工具協議、跨平台整合 | 工具服務化、IDE 整合 |
Agent 的核心元件
無論使用哪個框架,AI Agent 都包含以下核心元件:
- LLM(大語言模型):Agent 的「大腦」,負責推理和決策
- Tools(工具):Agent 能呼叫的函數,如搜尋、計算、資料庫查詢
- Memory(記憶):短期(對話歷史)和長期(向量資料庫)記憶
- Prompt Template:指導 Agent 行為的系統提示詞
- Output Parser:解析 LLM 輸出並轉換為可執行格式
下一步:完成環境設定,安裝所需的依賴套件,準備開始實作。