7 cách giúp giảm chi phí token khi dùng Claude Code

Thứ sáu - 08/05/2026 23:14

Claude Code là một công cụ cực kỳ hữu ích, nhưng chi phí sử dụng có thể tăng nhanh hơn nhiều người nghĩ. Nguyên nhân khá đơn giản: bạn không chỉ trả tiền cho prompt vừa nhập, mà còn “gánh” toàn bộ ngữ cảnh của phiên làm việc. Điều này bao gồm các tin nhắn trước đó, file đã đọc, output từ tool, các file memory như CLAUDE.md và nhiều chỉ dẫn nền khác.

Vì vậy, khi token bắt đầu tăng mạnh, vấn đề thường không nằm ở prompt kém, mà nằm ở việc ngữ cảnh bị “phình to” một cách không kiểm soát.

Nhiều lời khuyên phổ biến kiểu “giữ cuộc hội thoại ngắn” nghe thì đúng, nhưng lại không chỉ ra cụ thể điều gì thực sự tạo ra khác biệt. Điều quan trọng hơn là hiểu cách Claude Code xây dựng context, phần nào được gửi lại nhiều lần và những thói quen nào trong workflow đang âm thầm gây lãng phí.

Chọn model phù hợp với độ phức tạp của task

Không phải task nào cũng cần model mạnh nhất. Đây là một trong những cách đơn giản nhưng bị bỏ qua nhiều nhất.

Trong hệ thống của Claude, các model có chi phí khác nhau đáng kể. Ví dụ, Opus có thể đắt gấp nhiều lần Sonnet tính theo token. Vì vậy, nếu dùng sai model cho những việc đơn giản, bạn sẽ lãng phí tài nguyên mà không cần thiết.

Một cách tiếp cận hợp lý là bắt đầu với Sonnet cho các công việc thường ngày như viết test, chỉnh sửa nhỏ hoặc giải thích code. Khi gặp các vấn đề phức tạp hơn như thiết kế hệ thống nhiều file hoặc debug lỗi liên quan nhiều thành phần, lúc đó mới chuyển sang Opus. Với những việc mang tính cơ học như đổi tên, format hay tra cứu nhanh, Haiku là lựa chọn tiết kiệm hơn.

/model sonnet    # Day-to-day: writing tests, simple edits,
                 # explaining code, refactoring
/model opus      # Complex: multi-file architecture decisions,
                 # debugging gnarly cross-system issues
/model haiku     # Quick: lookups, formatting, renaming,
                 # anything repetitive

Ngoài ra, bạn cũng có thể điều chỉnh mức độ “effort” để kiểm soát lượng suy luận mà model thực hiện. Với các task đơn giản, giảm effort sẽ giúp tiết kiệm token đáng kể.

Giữ file CLAUDE.md gọn và đúng mục đích

Một trong những cách hiệu quả nhất để tiết kiệm token là tránh việc phải lặp lại các quy tắc dự án trong mỗi cuộc chat. Đó chính là vai trò của file CLAUDE.md.

File này được load ngay từ đầu và luôn tồn tại trong context của toàn bộ session. Điều này cũng đồng nghĩa: nếu CLAUDE.md dài 5.000 token, bạn sẽ phải “trả” 5.000 token cho mỗi lượt tương tác, dù bạn chỉ gửi một câu rất ngắn.

Vì vậy, CLAUDE.md nên chứa những thông tin ổn định như cách chạy test, package manager, quy tắc format, ràng buộc kiến trúc hoặc các thư mục không nên chỉnh sửa. Đồng thời, cần giữ file này càng gọn càng tốt.

Những nội dung như ghi chú họp, lịch sử thiết kế hay hướng dẫn dài dòng không nên đưa vào đây. Cách hiệu quả nhất là dùng CLAUDE.md như một bảng tra cứu nhanh, thay vì một “bộ não khổng lồ”.

Dùng subagent khi thực sự cần thiết

Subagent là các instance Claude riêng biệt, hoạt động trong context độc lập. Khi chạy subagent, toàn bộ output dài như log, tìm kiếm file hay reasoning nhiều bước sẽ không làm “bẩn” context chính, mà chỉ trả về phần tóm tắt.

Điều này giúp giữ cho luồng làm việc chính gọn gàng hơn. Tuy nhiên, subagent không phải lúc nào cũng tiết kiệm.

Với các task nhỏ như chạy lệnh shell đơn giản hay thao tác git nhanh, việc dùng subagent đôi khi lại tốn thêm token do overhead từ kiến trúc, prompt và các lần gọi tool.

Vì vậy, nguyên tắc thực tế là chỉ dùng subagent khi phần context bạn “tránh được” lớn hơn chi phí khởi tạo của nó.

Chỉ định rõ file và phạm vi cần xử lý

Một trong những cách lãng phí token nhanh nhất là yêu cầu Claude “xem toàn bộ repo” trong khi vấn đề thực tế chỉ nằm ở một vài file.

Khi yêu cầu quá mơ hồ, Claude sẽ phải mở nhiều file, thử nhiều hướng và tự xây dựng lại context — tất cả đều tiêu tốn token.

Cách tốt hơn là chỉ rõ file và thậm chí cả dòng code liên quan. Điều này giúp thu hẹp phạm vi xử lý và giảm đáng kể lượng token bị lãng phí.

Ngoài ra, bạn có thể sử dụng chế độ plan (Shift + Tab) để yêu cầu Claude đưa ra kế hoạch trước khi thực hiện. Nhờ đó, bạn có thể loại bỏ các bước không cần thiết trước khi chúng tiêu tốn tài nguyên.

Dùng /compact đúng thời điểm

Claude có thể tự động hoặc cho phép bạn chủ động nén (compact) session. Tuy nhiên, thời điểm sử dụng mới là yếu tố quan trọng.

Sau khi Claude đã đọc nhiều file, chạy lệnh và thử một vài hướng sai, session thường chứa rất nhiều thông tin không còn cần thiết. Đây chính là lúc nên dùng /compact để “làm sạch” context.

Nếu bạn đợi đến khi hệ thống báo đầy context hoặc bắt đầu “quên” thông tin, thì đã quá muộn. Lúc này, phần tóm tắt sẽ kém chính xác hơn.

Ngược lại, nếu compact sớm khi session còn “khỏe”, bạn sẽ giữ được thông tin quan trọng và loại bỏ phần dư thừa, giúp các bước sau nhẹ hơn đáng kể.

Kiểm tra context trước khi tối ưu

Một sai lầm phổ biến là tối ưu “mù”, trong khi không biết token đang bị tiêu tốn ở đâu.

Lệnh /context là công cụ giúp bạn nhìn rõ điều này. Nhiều khi phần tốn token nhất không nằm ở prompt hiện tại, mà là một file lớn đã được load trước đó, output từ tool, hoặc một memory file nặng.

Thay vì đoán, hãy kiểm tra thực tế. Chỉ cần loại bỏ một “thủ phạm thầm lặng” trong context cũng có thể mang lại cải thiện lớn.

Giữ hệ thống tool đơn giản

Claude Code có thể kết nối với nhiều tool và nguồn dữ liệu khác nhau, nhưng càng nhiều tích hợp, context càng dễ trở nên nặng.

Nếu bạn thêm quá nhiều công cụ, model có thể phải “gánh” thêm nhiều overhead không cần thiết cho mỗi task.

Giải pháp là giữ hệ thống gọn gàng. Chỉ sử dụng những tích hợp thực sự giải quyết vấn đề lặp lại, thay vì bật mọi thứ chỉ vì “có thể”.

Cách hiệu quả nhất để giảm chi phí token không phải là kiểm soát từng prompt, mà là thiết kế lại workflow.

Khi bạn kiểm soát được context — biết cái gì nên giữ, cái gì nên bỏ, và cái gì không nên xuất hiện ngay từ đầu — bạn sẽ tiết kiệm được nhiều hơn bất kỳ mẹo nhỏ nào.

Nói cách khác, đừng chỉ nghĩ về prompt. Hãy nghĩ về cách toàn bộ context được xây dựng và vận hành.

Nguồn tin: Quantrimang.com