AI Agent: Công cụ, prompt và quá trình ra quyết định

Thứ tư - 15/04/2026 01:50

Trong bài học 3, bạn đã xây dựng một công cụ phân loại email bằng Basic LLM Chain - một prompt duy nhất được đưa vào, một phản hồi duy nhất được đưa ra. Nhưng còn những tác vụ mà AI cần phải quyết định phải làm gì, chứ không chỉ trả lời một câu hỏi thì sao? Đó chính là AI Agent. Và nó thay đổi mọi thứ về những gì quy trình làm việc của bạn có thể thực hiện.

Điều gì làm nên một agent

Basic LLM Chain giống như việc bạn hỏi ai đó một câu hỏi và nhận được câu trả lời. AI Agent giống như việc bạn thuê một trợ lý nghiên cứu - bạn mô tả nhiệm vụ, và họ sẽ tìm ra các bước.

Đây là những gì node AI Agent thực hiện mà Basic LLM Chain không làm được:

  1. Nhận một nhiệm vụ (từ prompt của hệ thống + đầu vào của người dùng)

  2. Lý luận về việc sử dụng công cụ nào (chữ "Re" trong ReAct)

  3. Thực hiện bằng cách gọi một công cụ (chữ "Act" trong ReAct)

  4. Quan sát đầu ra của công cụ

  5. Vòng lặp - quyết định xem có nên gọi một công cụ khác hay trả về câu trả lời cuối cùng

Vòng lặp này được gọi là mẫu ReAct (Reason + Act). Hệ thống có thể tìm kiếm trên web, đọc kết quả, quyết định cần thêm ngữ cảnh, tìm kiếm trên Wikipedia, kết hợp các phát hiện, và sau đó viết một bản tóm tắt - tất cả chỉ từ một đầu vào duy nhất.

Từ phiên bản n8n v1.82.0 trở đi, tất cả các loại hệ thống (OpenAI Functions, Plan-and-Execute, Conversational, v.v...) đều được hợp nhất dưới Tools Agent. Bạn không cần phải chọn loại hệ thống - chỉ cần kết nối các công cụ của mình, cấu hình prompt hệ thống, và Tools Agent sẽ xử lý việc định tuyến.

3 trụ cột của một agent n8n

 

Điều gì làm nên một agent

Basic LLM Chain giống như việc bạn hỏi ai đó một câu hỏi và nhận được câu trả lời. AI Agent giống như việc bạn thuê một trợ lý nghiên cứu - bạn mô tả nhiệm vụ, và họ sẽ tìm ra các bước.

Đây là những gì node AI Agent thực hiện mà Basic LLM Chain không làm được:

  1. Nhận một nhiệm vụ (từ prompt của hệ thống + đầu vào của người dùng)

  2. Lý luận về việc sử dụng công cụ nào (chữ "Re" trong ReAct)

  3. Thực hiện bằng cách gọi một công cụ (chữ "Act" trong ReAct)

  4. Quan sát đầu ra của công cụ

  5. Vòng lặp - quyết định xem có nên gọi một công cụ khác hay trả về câu trả lời cuối cùng

Vòng lặp này được gọi là mẫu ReAct (Reason + Act). Hệ thống có thể tìm kiếm trên web, đọc kết quả, quyết định cần thêm ngữ cảnh, tìm kiếm trên Wikipedia, kết hợp các phát hiện, và sau đó viết một bản tóm tắt - tất cả chỉ từ một đầu vào duy nhất.

Từ phiên bản n8n v1.82.0 trở đi, tất cả các loại hệ thống (OpenAI Functions, Plan-and-Execute, Conversational, v.v...) đều được hợp nhất dưới Tools Agent. Bạn không cần phải chọn loại hệ thống - chỉ cần kết nối các công cụ của mình, cấu hình prompt hệ thống, và Tools Agent sẽ xử lý việc định tuyến.

3 trụ cột của một agent n8n

Mỗi AI Agent cần 3 yếu tố được cấu hình:

1. Nhà cung cấp LLM (bộ não): Gắn một node con mô hình trò chuyện OpenAI, Anthropic, Google hoặc Groq. Đây là mô hình thực hiện suy luận và ra quyết định. Đối với các hệ thống, hãy sử dụng một mô hình có khả năng - gpt-4o hoặc claude-3.5-sonnet là những lựa chọn mặc định tốt. Các mô hình nhỏ hơn thường gặp lỗi khi sử dụng công cụ nhiều bước.

2. Công cụ (bàn tay): Công cụ là các node con cung cấp cho hệ thống nhiều khả năng. Nếu không có công cụ, một agent chỉ là một node chat đắt tiền. n8n bao gồm:

Công cụChức năng của nó

SerpAPI

Tìm kiếm trên web (kết quả tìm kiếm của Google)

Wikipedia

Tra cứu thông tin thực tế trên Wikipedia

Code Tool

Viết và chạy code JavaScript hoặc Python

HTTP Request Tool

Gọi bất kỳ API nào

Calculator

Thực hiện phép toán

Workflow Tool

Gọi một quy trình làm việc n8n khác là một công cụ

MCP Client Tool

Gọi bất kỳ máy chủ MCP nào (Bài học 6)

3. Prompt hệ thống (hướng dẫn): Prompt hệ thống cho agent biết nó là ai, nó có những công cụ nào và cách sử dụng chúng. Đây là đòn bẩy điều khiển mạnh mẽ nhất của bạn - một prompt hệ thống tốt sẽ tạo nên sự khác biệt giữa một agent bối rối và một agent đáng tin cậy.

Kiểm tra nhanh: Bạn kết nối 3 công cụ với một AI agent nhưng không viết prompt hệ thống. Điều gì sẽ xảy ra?

Câu trả lời: Agent vẫn sẽ hoạt động, nhưng nó sẽ sử dụng các công cụ không nhất quán. Nếu không có hướng dẫn, agent sẽ tự đưa ra quyết định về thời điểm và cách sử dụng từng công cụ - điều này thường có nghĩa là nó chọn công cụ đầu tiên có vẻ phù hợp và bỏ qua những công cụ khác. Prompt hệ thống cho phép bạn kiểm soát việc lựa chọn công cụ.

Xây dựng: Agent nghiên cứu đa công cụ

Bạn sẽ xây dựng một agent giải quyết câu hỏi nghiên cứu, tìm kiếm dữ liệu gần đây trên web, kiểm tra Wikipedia để có ngữ cảnh và viết một bản tóm tắt tổng hợp.

Bước 1: Tạo nền tảng

  1. Quy trình làm việc mới → thêm Chat Trigger (thao tác này tạo giao diện trò chuyện để thử nghiệm)

  2. Thêm node AI agent

  3. Kết nối Chat Trigger với AI agent

Bước 2: Gắn LLM

Nhấp vào node AI agent → trong phần Model, thêm node con OpenAI Chat Model:

  • Thông tin xác thực: OpenAI key của bạn

  • Mô hình: gpt-4o (các agent cần khả năng suy luận mạnh mẽ - gpt-4o-mini có thể gặp khó khăn với những tác vụ đa công cụ)

Bước 3: Kết nối công cụ

Vẫn trong node AI agent, thêm 3 công cụ:

Công cụ 1: SerpAPI (tìm kiếm web) - Thêm thông tin xác thực: đăng ký tại serpapi.com để có gói miễn phí (100 lượt tìm kiếm/tháng) - Giờ đây, agent có thể tìm kiếm thông tin thời gian thực trên Google

Công cụ 2: Wikipedia - Không cần thông tin xác thực - công cụ này truy vấn API công khai của Wikipedia - Tốt cho các định nghĩa thực tế, bối cảnh lịch sử và thông tin nền tảng

Công cụ 3: Code Tool - Ngôn ngữ: JavaScript - Không cần thông tin xác thực - công cụ này chạy code trong sandbox của n8n - agent có thể viết và thực thi code để tính toán, xử lý dữ liệu hoặc định dạng

Bước 4: Viết prompt hệ thống

Đây là phần quan trọng. Trong cấu hình của AI agent, tìm trường prompt hệ thống và viết:

 
Bạn là trợ lý nghiên cứu. Khi được giao một câu hỏi:

1. LUÔN LUÔN tìm kiếm trên web trước bằng SerpAPI để tìm dữ liệu gần đây, cập nhật
2. Sử dụng Wikipedia để tìm thông tin nền tảng, định nghĩa và bối cảnh lịch sử
3. Sử dụng Code Tool khi bạn cần tính toán số liệu, xử lý dữ liệu hoặc định dạng kết quả
4. Tổng hợp các phát hiện từ nhiều nguồn thành một bản tóm tắt rõ ràng, có trích dẫn

Quy tắc:
- Trích dẫn nguồn của bạn (URL web hoặc "Wikipedia: Tên bài viết")
- Nếu kết quả tìm kiếm trên web và Wikipedia mâu thuẫn, hãy ưu tiên nguồn gần đây hơn
- Nếu bạn không thể tìm thấy thông tin đáng tin cậy, hãy nói rõ điều đó - đừng bao giờ bịa đặt thông tin
- Giữ bản tóm tắt cuối cùng của bạn dưới 300 từ

Hãy chú ý độ cụ thể của điều này. Bạn đang hướng dẫn agent khi nào nên sử dụng từng công cụ, cách xử lý xung đột và định dạng đầu ra. Các hướng dẫn mơ hồ sẽ tạo ra những agent mơ hồ.

Bước 5: Kiểm tra

Nhấp vào "Test workflow" và sử dụng giao diện trò chuyện. Hãy thử các câu hỏi sau:

  • "Giá trị vốn hóa thị trường hiện tại của NVIDIA là bao nhiêu và nó đã thay đổi như thế nào kể từ năm 2023?"

  • "So sánh dân số của Tokyo và New York, bao gồm cả các khu vực đô thị"

  • "Thế nào là thế hệ tăng cường truy xuất (RAG) và khái niệm này được công bố lần đầu tiên khi nào?"

Quan sát quá trình suy luận của agent trong bảng kết quả. Bạn sẽ thấy nó quyết định gọi công cụ nào, xử lý kết quả và quyết định xem có nên thực hiện cuộc gọi khác hay không.

Kiểm tra nhanh: Agent của bạn tìm kiếm trên web cụm từ "giá trị vốn hóa thị trường của NVIDIA" nhưng kết quả đã lỗi thời. Làm thế nào bạn có thể cải thiện điều này?

Đáp án: Thêm ràng buộc ngày tháng vào prompt hệ thống của bạn: "Khi tìm kiếm dữ liệu tài chính, hãy bao gồm năm hiện tại trong truy vấn tìm kiếm của bạn". Bạn cũng có thể thêm "Luôn bao gồm năm 2026 trong các truy vấn tìm kiếm đối với dữ liệu nhạy cảm về thời gian" vào prompt hệ thống. Khi đó, agent sẽ tìm kiếm "vốn hóa thị trường NVIDIA năm 2026" thay vì truy vấn thông thường.

Kỹ thuật tạo prompt hệ thống cho agent

Viết prompt hệ thống cho agent là một kỹ năng khác so với viết prompt cho các chuỗi LLM cơ bản. Với chuỗi, bạn kiểm soát đầu vào chính xác. Với agent, bạn kiểm soát chiến lược - agent quyết định các chi tiết cụ thể.

3 mẫu hiệu quả:

Mẫu 1: Quy tắc lựa chọn công cụ

Cho agent biết rõ ràng khi nào nên sử dụng từng công cụ:

 
Sử dụng SerpAPI cho: sự kiện hiện tại, giá cả, thống kê, tin tức gần đây
Sử dụng Wikipedia cho: định nghĩa, lịch sử, khái niệm khoa học, dữ liệu tiểu sử
Sử dụng Code cho: tính toán, định dạng dữ liệu, chuyển đổi đơn vị

Mẫu 2: Chiến lược từng bước

Cung cấp cho nhân viên một quy trình làm việc rõ ràng:

 
Đối với mỗi câu hỏi:
1. Tìm kiếm dữ liệu hiện tại trên mạng
2. Kiểm tra Wikipedia để hiểu ngữ cảnh
3. Đối chiếu cả hai nguồn
4. Viết tóm tắt có trích dẫn

Mẫu 3: Đặc tả định dạng đầu ra

Xác định chính xác định dạng phản hồi cần nhận được:

 
Hãy định dạng câu trả lời của bạn như sau:
## Tóm tắt
[Tổng quan 2-3 đoạn]

## Các điểm dữ liệu chính
- [các gạch đầu dòng với số liệu cụ thể]

## Nguồn tham khảo
- [danh sách các URL và bài viết Wikipedia đã sử dụng]

Các agent có hướng dẫn rõ ràng về những việc cần làm, thời điểm sử dụng từng công cụ và cách định dạng đầu ra sẽ đáng tin cậy hơn nhiều so với những agent chỉ có prompt chung chung kiểu "hãy giúp đỡ".

4 mô hình kiến ​​trúc agent

Khi quy trình làm việc trở nên phức tạp hơn, bạn sẽ gặp 4 mô hình sau:

MẫuCách thức hoạt độngKhi nào nên sử dụng

Yêu cầu nối tiếp

Các lệnh gọi LLM tuần tự — đầu ra của lệnh này trở thành đầu vào của lệnh tiếp theoQuy trình xử lý nhiều bước (phân loại → trích xuất → tóm tắt)

Agent đơn lẻ

Một agent + công cụ + vòng lặp suy luậnHầu hết các nhiệm vụ (nghiên cứu, hỏi đáp, xử lý dữ liệu)

Gatekeeper + Chuyên gia

Một agent điều phối sẽ ủy quyền cho các agent chuyên tráchCác nhiệm vụ phức tạp với những nhiệm vụ con riêng biệt

Đội ngũ Multi-Agent

Nhiều agent cộng tác trong một mạng lướiQuá trình điều phối và quản lý nhiều tác vụ tự động hóa nâng cao (Bài học 8)

Khóa học này sẽ bao gồm làm việc với các agent đơn lẻ (Bài 4 - 6) và đề cập đến mẫu gatekeeper trong bài học cuối khóa (Bài 8). Hãy bắt đầu đơn giản - hầu hết các quy trình làm việc thực tế chỉ cần một agent được cấu hình tốt.

Những điểm chính cần ghi nhớ

  • AI agent sử dụng vòng lặp ReAct - suy luận về nhiệm vụ, gọi công cụ, quan sát kết quả, quyết định bước tiếp theo.

  • Mỗi agent cần 3 thứ: Nhà cung cấp LLM (bộ não), công cụ (bàn tay) và prompt hệ thống (hướng dẫn).

  • Prompt hệ thống là đòn bẩy điều khiển chính của bạn - hãy cụ thể về thời điểm sử dụng từng công cụ và cách định dạng đầu ra.

  • Từ phiên bản 1.82.0 trở đi, tất cả các loại agent được thống nhất thành Tools Agent - không cần phải lựa chọn giữa các framework agent.

  • Sử dụng các mô hình có khả năng cho agent (gpt-4o, claude-3.5-sonnet) - các mô hình nhỏ hơn thường thất bại trong suy luận nhiều bước.


 

 

Nguồn tin: Quantrimang.com

Tổng số điểm của bài viết là: 0 trong 0 đánh giá

  Ý kiến bạn đọc

THỐNG KÊ TRUY CẬP
  • Đang truy cập54
  • Máy chủ tìm kiếm10
  • Khách viếng thăm44
  • Hôm nay12,796
  • Tháng hiện tại266,312
  • Tổng lượt truy cập15,159,049
QUẢNG CÁO
Phan Thanh Phú
Quảng cáo 2
Liên kết site
Đăng nhập Thành viên
Hãy đăng nhập thành viên để trải nghiệm đầy đủ các tiện ích trên site
Thăm dò ý kiến

Bạn thấy Website cần cải tiến những gì?

Lịch Âm dương
Máy tính
Bạn đã không sử dụng Site, Bấm vào đây để duy trì trạng thái đăng nhập. Thời gian chờ: 60 giây