Tích hợp API trong tự động hóa Python với AI

Thứ ba - 09/06/2026 22:25

Tóm tắt bài học: Trong bài học trước, bạn đã học về web scraping — trích xuất dữ liệu từ các trang HTML. API là một giải pháp thay thế có cấu trúc và đáng tin cậy: Thay vì phân tích cú pháp HTML, bạn nhận được dữ liệu JSON sạch trực tiếp từ dịch vụ.

API là xương sống của tự động hóa hiện đại. Thay vì trích xuất dữ liệu từ trang web thời tiết, hãy gọi API thời tiết. Thay vì trích xuất dữ liệu từ màn hình công cụ quản lý dự án của bạn, hãy sử dụng API của nó. API cung cấp cho bạn dữ liệu có cấu trúc, giao diện ổn định và quyền truy cập rõ ràng.

Thông tin cơ bản về REST API

📍 Nơi dán: Mở ChatGPT (chat.openai.com), Claude (claude.ai) hoặc Gemini (gemini.google.com) và bắt đầu một cuộc trò chuyện mới.

 
pip install requests python-dotenv

📋 Cách sao chép prompt này: Nhấp chuột vào bất kỳ đâu bên trong khối màu xám, nhấn Cmd+A rồi Cmd+C (Mac) hoặc Ctrl+A rồi Ctrl+C (Windows). Hoặc sử dụng biểu tượng sao chép xuất hiện.

👀 Những gì bạn sẽ thấy: Trong vòng vài giây, AI sẽ trả về một phản hồi có cấu trúc dựa vào prompt ở trên. Hãy đọc kỹ và coi đó là bản nháp, không phải câu trả lời cuối cùng.

4 phương thức HTTP bạn sẽ sử dụng:

Phương thứcMục đíchVí dụ

GET

Truy xuất dữ liệuNhận dự báo thời tiết, danh sách người dùng

POST

Gửi/tạo dữ liệuTạo nhiệm vụ, gửi biểu mẫu

PUT

Cập nhật dữ liệuCập nhật hồ sơ người dùng, chỉnh sửa cài đặt

DELETE

Xóa dữ liệuXóa bản ghi, hủy đăng ký

Các mẫu yêu cầu cốt lõi:

✏️ Cách điền thông tin chi tiết: Thay thế mỗi dấu ngoặc vuông [] và trình giữ chỗ trong ngoặc bằng thông tin cụ thể từ tình huống thực tế của bạn. Thông tin đầu vào mơ hồ sẽ tạo ra kết quả mơ hồ — hãy cụ thể.

👀 Những gì bạn sẽ thấy: Trong vòng vài giây, AI sẽ trả về một phản hồi có cấu trúc dựa vào prompt ở trên. Hãy đọc kỹ và coi đó là bản nháp, không phải câu trả lời cuối cùng.

📌 Cách xử lý kết quả: Lưu phản hồi vào file Notes. Chọn gợi ý có hiệu quả cao nhất và thực hiện nó trong tuần này — đừng cố gắng làm tất cả cùng một lúc.

⚠️ Nếu kết quả không ổn: Nếu các gợi ý có vẻ chung chung, hãy dán nội dung sau: "Hãy cụ thể hơn với ngữ cảnh thực tế của tôi. Bỏ qua những lời khuyên chung chung." Nếu nó bỏ qua các chi tiết quan trọng bạn đã cung cấp, hãy hỏi: "Bạn đã bỏ sót [X] trong ngữ cảnh của tôi — hãy thực hiện lại với điều đó làm ràng buộc chính."

 
python
import requests

# GET with parameters
response = requests.get(
    "https://api.example.com/data",
    params={"city": "Tokyo", "units": "metric"},
    headers={"Authorization": f"Bearer {api_key}"}
)
data = response.json()

# POST with JSON body
response = requests.post(
    "https://api.example.com/items",
    json={"name": "New Item", "quantity": 5},
    headers={"Authorization": f"Bearer {api_key}"}
)

Script 1: API Data Fetcher

Prompt AI:

 
Viết một script Python để lấy dữ liệu từ API REST: (1) Đọc API key từ biến môi trường bằng python-dotenv, (2) Thực hiện các yêu cầu GET với tiêu đề và tham số phù hợp, (3) Xử lý các lỗi HTTP phổ biến: 401 (không được ủy quyền), 403 (bị cấm), 404 (không tìm thấy), 429 (giới hạn tốc độ), 500 (lỗi máy chủ), (4) Phân tích phản hồi JSON và lưu vào CSV, (5) Thêm logic thử lại: thử lại các yêu cầu không thành công tối đa 3 lần với độ trễ lũy thừa (1s, 2s, 4s). Bao gồm file .env.example liệt kê các biến môi trường cần thiết.

Script 2: Paginated API Consumer

Prompt AI:

 
Viết một script tiêu thụ API REST phân trang: (1) Bắt đầu từ trang đầu tiên, (2) Tuân theo phân trang: API trả về trường "next_page_token" trong mỗi phản hồi — truyền nó làm tham số truy vấn để lấy trang tiếp theo, (3) Thu thập tất cả các mục trên mọi trang vào một danh sách duy nhất, (4) Dừng lại khi không có "next_page_token" trong phản hồi, (5) Tuân thủ giới hạn tốc độ: tối đa 60 yêu cầu mỗi phút, (6) Lưu tiến trình sau mỗi trang (an toàn để tiếp tục nếu script bị lỗi), (7) In tiến trình: "Trang 5 — Đã thu thập được 500 mục cho đến nay". Trả về toàn bộ tập dữ liệu dưới dạng DataFrame của pandas.

Các mẫu xác thực

Loại xác thựcCách hoạt độngCode yêu cầu

API Key (header)

Key trong tiêu đề yêu cầu

headers={"X-API-Key": key}

Bearer Token

Token kiểu OAuth

headers={"Authorization": f"Bearer {token}"}

API Key (query)

Key trong tham số URL

params={"api_key": key}

Xác thực cơ bản

Username + mật khẩu

auth=("username", "password")

Bảo mật biến môi trường

Tạo file .env (thêm vào .gitignore):

 
WEATHER_API_KEY=key-của-bạn-ở-đây
GITHUB_TOKEN=ghp_xxxxxxxxxxxx

Tạo file .env.example (commit file này — hiển thị các biến bắt buộc mà không có giá trị):

 
WEATHER_API_KEY=
GITHUB_TOKEN=

Load trong script của bạn:

 
from dotenv import load_dotenv
import os

load_dotenv()
api_key = os.environ.get("WEATHER_API_KEY")
if not api_key:
    raise ValueError("WEATHER_API_KEY not set in .env file")

Script 3: Pipeline dữ liệu đa API

Prompt AI:

 
Viết một script Python kết hợp dữ liệu từ hai API: (1) Lấy danh sách các thành phố từ API_1, (2) Đối với mỗi thành phố, lấy dữ liệu thời tiết từ API_2, (3) Kết hợp các kết quả thành một tập dữ liệu duy nhất với các cột từ cả hai API, (4) Xử lý: một API bị lỗi (sử dụng dữ liệu được lưu trong cache nếu có), giới hạn tốc độ trên cả hai API (giới hạn khác nhau) và dữ liệu bị thiếu (một số thành phố có thể không có dữ liệu thời tiết), (5) Lưu kết quả kết hợp dưới dạng CSV và Excel. Điều này minh họa mô hình phổ biến của việc điều phối nhiều lệnh gọi API.

Kiểm tra nhanh: Một API trả về lỗi này: {"error": "rate_limit_exceeded", "retry_after": 30}. Script của bạn nên làm gì?

Câu trả lời: Chờ 30 giây được chỉ định trước khi thử lại. Nhiều API bao gồm trường retry_after hoặc tiêu đề HTTP Retry-After cho bạn biết chính xác thời gian cần đợi. Việc xử lý lỗi của bạn nên kiểm tra giá trị này và sử dụng nó thay vì một khoảng thời gian chờ cố định. Prompt AI: "Thêm xử lý retry_after vào logic lỗi API của tôi — kiểm tra cả phần thân phản hồi JSON và tiêu đề HTTP để biết thời gian thử lại".

Xử lý lỗi cho các API script

LỗiMã trạng tháiScript của bạn nên

Rate limited

429Chờ và thử lại (kiểm tra tiêu đề Retry-After)

Unauthorized

401Kiểm tra API key, báo lỗi rõ ràng

Not found

404Đăng nhập và bỏ qua tài nguyên này

Server error

500-503Thử lại với chế độ backoff (sự cố tạm thời)

Timeout

-Thử lại với thời gian chờ dài hơn

Network error

-Thử lại, sau đó báo lỗi rõ ràng

Những điểm chính cần ghi nhớ

  • Không bao giờ hardcode API key trong mã nguồn — hãy sử dụng biến môi trường với python-dotenv, tạo file .env (được thêm vào .gitignore) cho các key của bạn và file .env.example (đã được commit) hiển thị những biến bắt buộc; bot sẽ quét GitHub để tìm các key bị rò rỉ chỉ trong vài phút sau khi vô tình đẩy code.

  • Thực hiện giới hạn tốc độ thông minh: theo dõi dấu thời gian yêu cầu để tối đa hóa thông lượng trong giới hạn và sử dụng thuật toán lùi lũy thừa (1s, 2s, 4s) với logic thử lại cho lỗi 429 — mọi API đều có giới hạn và script của bạn phải tự động tuân thủ chúng.

  • API đáng tin cậy hơn so với việc thu thập dữ liệu web vì chúng cung cấp dữ liệu JSON có cấu trúc, giao diện có phiên bản và quyền rõ ràng — luôn kiểm tra xem một trang web có API hay không trước khi xây dựng trình thu thập dữ liệu.

Nguồn tin: Quantrimang.com

Tổng số điểm của bài viết là: 0 trong 0 đánh giá

  Ý kiến bạn đọc

THỐNG KÊ TRUY CẬP
  • Đang truy cập73
  • Máy chủ tìm kiếm28
  • Khách viếng thăm45
  • Hôm nay8,127
  • Tháng hiện tại148,620
  • Tổng lượt truy cập16,124,091
QUẢNG CÁO
Phan Thanh Phú
Quảng cáo 2
Liên kết site
Đăng nhập Thành viên
Hãy đăng nhập thành viên để trải nghiệm đầy đủ các tiện ích trên site
Thăm dò ý kiến

Bạn thấy Website cần cải tiến những gì?

Lịch Âm dương
Máy tính
Bạn đã không sử dụng Site, Bấm vào đây để duy trì trạng thái đăng nhập. Thời gian chờ: 60 giây