AI Agent: Công cụ, prompt và quá trình ra quyết định

Thứ tư - 15/04/2026 01:50

Trong bài học 3, bạn đã xây dựng một công cụ phân loại email bằng Basic LLM Chain - một prompt duy nhất được đưa vào, một phản hồi duy nhất được đưa ra. Nhưng còn những tác vụ mà AI cần phải quyết định phải làm gì, chứ không chỉ trả lời một câu hỏi thì sao? Đó chính là AI Agent. Và nó thay đổi mọi thứ về những gì quy trình làm việc của bạn có thể thực hiện.

Điều gì làm nên một agent

Basic LLM Chain giống như việc bạn hỏi ai đó một câu hỏi và nhận được câu trả lời. AI Agent giống như việc bạn thuê một trợ lý nghiên cứu - bạn mô tả nhiệm vụ, và họ sẽ tìm ra các bước.

Đây là những gì node AI Agent thực hiện mà Basic LLM Chain không làm được:

Nhận một nhiệm vụ (từ prompt của hệ thống + đầu vào của người dùng)
Lý luận về việc sử dụng công cụ nào (chữ "Re" trong ReAct)
Thực hiện bằng cách gọi một công cụ (chữ "Act" trong ReAct)
Quan sát đầu ra của công cụ
Vòng lặp - quyết định xem có nên gọi một công cụ khác hay trả về câu trả lời cuối cùng

Vòng lặp này được gọi là mẫu ReAct (Reason + Act). Hệ thống có thể tìm kiếm trên web, đọc kết quả, quyết định cần thêm ngữ cảnh, tìm kiếm trên Wikipedia, kết hợp các phát hiện, và sau đó viết một bản tóm tắt - tất cả chỉ từ một đầu vào duy nhất.

Từ phiên bản n8n v1.82.0 trở đi, tất cả các loại hệ thống (OpenAI Functions, Plan-and-Execute, Conversational, v.v...) đều được hợp nhất dưới Tools Agent. Bạn không cần phải chọn loại hệ thống - chỉ cần kết nối các công cụ của mình, cấu hình prompt hệ thống, và Tools Agent sẽ xử lý việc định tuyến.

3 trụ cột của một agent n8n

Điều gì làm nên một agent

Basic LLM Chain giống như việc bạn hỏi ai đó một câu hỏi và nhận được câu trả lời. AI Agent giống như việc bạn thuê một trợ lý nghiên cứu - bạn mô tả nhiệm vụ, và họ sẽ tìm ra các bước.

Đây là những gì node AI Agent thực hiện mà Basic LLM Chain không làm được:

Nhận một nhiệm vụ (từ prompt của hệ thống + đầu vào của người dùng)
Lý luận về việc sử dụng công cụ nào (chữ "Re" trong ReAct)
Thực hiện bằng cách gọi một công cụ (chữ "Act" trong ReAct)
Quan sát đầu ra của công cụ
Vòng lặp - quyết định xem có nên gọi một công cụ khác hay trả về câu trả lời cuối cùng

Vòng lặp này được gọi là mẫu ReAct (Reason + Act). Hệ thống có thể tìm kiếm trên web, đọc kết quả, quyết định cần thêm ngữ cảnh, tìm kiếm trên Wikipedia, kết hợp các phát hiện, và sau đó viết một bản tóm tắt - tất cả chỉ từ một đầu vào duy nhất.

Từ phiên bản n8n v1.82.0 trở đi, tất cả các loại hệ thống (OpenAI Functions, Plan-and-Execute, Conversational, v.v...) đều được hợp nhất dưới Tools Agent. Bạn không cần phải chọn loại hệ thống - chỉ cần kết nối các công cụ của mình, cấu hình prompt hệ thống, và Tools Agent sẽ xử lý việc định tuyến.

3 trụ cột của một agent n8n

Mỗi AI Agent cần 3 yếu tố được cấu hình:

1. Nhà cung cấp LLM (bộ não): Gắn một node con mô hình trò chuyện OpenAI, Anthropic, Google hoặc Groq. Đây là mô hình thực hiện suy luận và ra quyết định. Đối với các hệ thống, hãy sử dụng một mô hình có khả năng - gpt-4o hoặc claude-3.5-sonnet là những lựa chọn mặc định tốt. Các mô hình nhỏ hơn thường gặp lỗi khi sử dụng công cụ nhiều bước.

2. Công cụ (bàn tay): Công cụ là các node con cung cấp cho hệ thống nhiều khả năng. Nếu không có công cụ, một agent chỉ là một node chat đắt tiền. n8n bao gồm:

Công cụ	Chức năng của nó
SerpAPI	Tìm kiếm trên web (kết quả tìm kiếm của Google)
Wikipedia	Tra cứu thông tin thực tế trên Wikipedia
Code Tool	Viết và chạy code JavaScript hoặc Python
HTTP Request Tool	Gọi bất kỳ API nào
Calculator	Thực hiện phép toán
Workflow Tool	Gọi một quy trình làm việc n8n khác là một công cụ
MCP Client Tool	Gọi bất kỳ máy chủ MCP nào (Bài học 6)

3. Prompt hệ thống (hướng dẫn): Prompt hệ thống cho agent biết nó là ai, nó có những công cụ nào và cách sử dụng chúng. Đây là đòn bẩy điều khiển mạnh mẽ nhất của bạn - một prompt hệ thống tốt sẽ tạo nên sự khác biệt giữa một agent bối rối và một agent đáng tin cậy.

✅ Kiểm tra nhanh: Bạn kết nối 3 công cụ với một AI agent nhưng không viết prompt hệ thống. Điều gì sẽ xảy ra?

Câu trả lời: Agent vẫn sẽ hoạt động, nhưng nó sẽ sử dụng các công cụ không nhất quán. Nếu không có hướng dẫn, agent sẽ tự đưa ra quyết định về thời điểm và cách sử dụng từng công cụ - điều này thường có nghĩa là nó chọn công cụ đầu tiên có vẻ phù hợp và bỏ qua những công cụ khác. Prompt hệ thống cho phép bạn kiểm soát việc lựa chọn công cụ.

Xây dựng: Agent nghiên cứu đa công cụ

Bạn sẽ xây dựng một agent giải quyết câu hỏi nghiên cứu, tìm kiếm dữ liệu gần đây trên web, kiểm tra Wikipedia để có ngữ cảnh và viết một bản tóm tắt tổng hợp.

Bước 1: Tạo nền tảng

Quy trình làm việc mới → thêm Chat Trigger (thao tác này tạo giao diện trò chuyện để thử nghiệm)
Thêm node AI agent
Kết nối Chat Trigger với AI agent

Bước 2: Gắn LLM

Nhấp vào node AI agent → trong phần Model, thêm node con OpenAI Chat Model:

Thông tin xác thực: OpenAI key của bạn
Mô hình: gpt-4o (các agent cần khả năng suy luận mạnh mẽ - gpt-4o-mini có thể gặp khó khăn với những tác vụ đa công cụ)

Bước 3: Kết nối công cụ

Vẫn trong node AI agent, thêm 3 công cụ:

Công cụ 1: SerpAPI (tìm kiếm web) - Thêm thông tin xác thực: đăng ký tại serpapi.com để có gói miễn phí (100 lượt tìm kiếm/tháng) - Giờ đây, agent có thể tìm kiếm thông tin thời gian thực trên Google

Công cụ 2: Wikipedia - Không cần thông tin xác thực - công cụ này truy vấn API công khai của Wikipedia - Tốt cho các định nghĩa thực tế, bối cảnh lịch sử và thông tin nền tảng

Công cụ 3: Code Tool - Ngôn ngữ: JavaScript - Không cần thông tin xác thực - công cụ này chạy code trong sandbox của n8n - agent có thể viết và thực thi code để tính toán, xử lý dữ liệu hoặc định dạng

Bước 4: Viết prompt hệ thống

Đây là phần quan trọng. Trong cấu hình của AI agent, tìm trường prompt hệ thống và viết:

Bạn là trợ lý nghiên cứu. Khi được giao một câu hỏi:

1. LUÔN LUÔN tìm kiếm trên web trước bằng SerpAPI để tìm dữ liệu gần đây, cập nhật
2. Sử dụng Wikipedia để tìm thông tin nền tảng, định nghĩa và bối cảnh lịch sử
3. Sử dụng Code Tool khi bạn cần tính toán số liệu, xử lý dữ liệu hoặc định dạng kết quả
4. Tổng hợp các phát hiện từ nhiều nguồn thành một bản tóm tắt rõ ràng, có trích dẫn

Quy tắc:
- Trích dẫn nguồn của bạn (URL web hoặc "Wikipedia: Tên bài viết")
- Nếu kết quả tìm kiếm trên web và Wikipedia mâu thuẫn, hãy ưu tiên nguồn gần đây hơn
- Nếu bạn không thể tìm thấy thông tin đáng tin cậy, hãy nói rõ điều đó - đừng bao giờ bịa đặt thông tin
- Giữ bản tóm tắt cuối cùng của bạn dưới 300 từ

Hãy chú ý độ cụ thể của điều này. Bạn đang hướng dẫn agent khi nào nên sử dụng từng công cụ, cách xử lý xung đột và định dạng đầu ra. Các hướng dẫn mơ hồ sẽ tạo ra những agent mơ hồ.

Bước 5: Kiểm tra

Nhấp vào "Test workflow" và sử dụng giao diện trò chuyện. Hãy thử các câu hỏi sau:

"Giá trị vốn hóa thị trường hiện tại của NVIDIA là bao nhiêu và nó đã thay đổi như thế nào kể từ năm 2023?"
"So sánh dân số của Tokyo và New York, bao gồm cả các khu vực đô thị"
"Thế nào là thế hệ tăng cường truy xuất (RAG) và khái niệm này được công bố lần đầu tiên khi nào?"

Quan sát quá trình suy luận của agent trong bảng kết quả. Bạn sẽ thấy nó quyết định gọi công cụ nào, xử lý kết quả và quyết định xem có nên thực hiện cuộc gọi khác hay không.

✅ Kiểm tra nhanh: Agent của bạn tìm kiếm trên web cụm từ "giá trị vốn hóa thị trường của NVIDIA" nhưng kết quả đã lỗi thời. Làm thế nào bạn có thể cải thiện điều này?

Đáp án: Thêm ràng buộc ngày tháng vào prompt hệ thống của bạn: "Khi tìm kiếm dữ liệu tài chính, hãy bao gồm năm hiện tại trong truy vấn tìm kiếm của bạn". Bạn cũng có thể thêm "Luôn bao gồm năm 2026 trong các truy vấn tìm kiếm đối với dữ liệu nhạy cảm về thời gian" vào prompt hệ thống. Khi đó, agent sẽ tìm kiếm "vốn hóa thị trường NVIDIA năm 2026" thay vì truy vấn thông thường.

Kỹ thuật tạo prompt hệ thống cho agent

Viết prompt hệ thống cho agent là một kỹ năng khác so với viết prompt cho các chuỗi LLM cơ bản. Với chuỗi, bạn kiểm soát đầu vào chính xác. Với agent, bạn kiểm soát chiến lược - agent quyết định các chi tiết cụ thể.

3 mẫu hiệu quả:

Mẫu 1: Quy tắc lựa chọn công cụ

Cho agent biết rõ ràng khi nào nên sử dụng từng công cụ:

Sử dụng SerpAPI cho: sự kiện hiện tại, giá cả, thống kê, tin tức gần đây
Sử dụng Wikipedia cho: định nghĩa, lịch sử, khái niệm khoa học, dữ liệu tiểu sử
Sử dụng Code cho: tính toán, định dạng dữ liệu, chuyển đổi đơn vị

Mẫu 2: Chiến lược từng bước

Cung cấp cho nhân viên một quy trình làm việc rõ ràng:

Đối với mỗi câu hỏi:
1. Tìm kiếm dữ liệu hiện tại trên mạng
2. Kiểm tra Wikipedia để hiểu ngữ cảnh
3. Đối chiếu cả hai nguồn
4. Viết tóm tắt có trích dẫn

Mẫu 3: Đặc tả định dạng đầu ra

Xác định chính xác định dạng phản hồi cần nhận được:

Hãy định dạng câu trả lời của bạn như sau:
## Tóm tắt
[Tổng quan 2-3 đoạn]

## Các điểm dữ liệu chính
- [các gạch đầu dòng với số liệu cụ thể]

## Nguồn tham khảo
- [danh sách các URL và bài viết Wikipedia đã sử dụng]

Các agent có hướng dẫn rõ ràng về những việc cần làm, thời điểm sử dụng từng công cụ và cách định dạng đầu ra sẽ đáng tin cậy hơn nhiều so với những agent chỉ có prompt chung chung kiểu "hãy giúp đỡ".

4 mô hình kiến trúc agent

Khi quy trình làm việc trở nên phức tạp hơn, bạn sẽ gặp 4 mô hình sau:

Mẫu	Cách thức hoạt động	Khi nào nên sử dụng
Yêu cầu nối tiếp	Các lệnh gọi LLM tuần tự — đầu ra của lệnh này trở thành đầu vào của lệnh tiếp theo	Quy trình xử lý nhiều bước (phân loại → trích xuất → tóm tắt)
Agent đơn lẻ	Một agent + công cụ + vòng lặp suy luận	Hầu hết các nhiệm vụ (nghiên cứu, hỏi đáp, xử lý dữ liệu)
Gatekeeper + Chuyên gia	Một agent điều phối sẽ ủy quyền cho các agent chuyên trách	Các nhiệm vụ phức tạp với những nhiệm vụ con riêng biệt
Đội ngũ Multi-Agent	Nhiều agent cộng tác trong một mạng lưới	Quá trình điều phối và quản lý nhiều tác vụ tự động hóa nâng cao (Bài học 8)

Khóa học này sẽ bao gồm làm việc với các agent đơn lẻ (Bài 4 - 6) và đề cập đến mẫu gatekeeper trong bài học cuối khóa (Bài 8). Hãy bắt đầu đơn giản - hầu hết các quy trình làm việc thực tế chỉ cần một agent được cấu hình tốt.

Những điểm chính cần ghi nhớ

AI agent sử dụng vòng lặp ReAct - suy luận về nhiệm vụ, gọi công cụ, quan sát kết quả, quyết định bước tiếp theo.
Mỗi agent cần 3 thứ: Nhà cung cấp LLM (bộ não), công cụ (bàn tay) và prompt hệ thống (hướng dẫn).
Prompt hệ thống là đòn bẩy điều khiển chính của bạn - hãy cụ thể về thời điểm sử dụng từng công cụ và cách định dạng đầu ra.
Từ phiên bản 1.82.0 trở đi, tất cả các loại agent được thống nhất thành Tools Agent - không cần phải lựa chọn giữa các framework agent.
Sử dụng các mô hình có khả năng cho agent (gpt-4o, claude-3.5-sonnet) - các mô hình nhỏ hơn thường thất bại trong suy luận nhiều bước.

Nguồn tin: Quantrimang.com