Thông tin liên hệ
- 036.686.3943
- admin@nguoicodonvn2008.info
Ôn tập bài học trước: Trong bài học trước, bạn đã xây dựng các script tự động hóa file — công cụ sắp xếp, đổi tên và sao lưu. Bây giờ, hãy cùng xử lý dữ liệu bên trong các file đó: Những file CSV, bảng tính Excel và JSON cần được làm sạch, chuyển đổi và báo cáo.
Xử lý dữ liệu là lĩnh vực mà tự động hóa bằng Python phát huy tác động lớn nhất. Việc thao tác bảng tính mà bạn thực hiện thủ công trong 20 phút mỗi tuần có thể được tự động hóa để chạy trong vài giây — và sẽ chính xác hơn vì các script không bị mệt mỏi hoặc mắc lỗi chính tả.
pandas là thư viện Python để thao tác dữ liệu. Hãy cài đặt nó:
📍 Nơi dán: Mở ChatGPT (chat.openai.com), Claude (claude.ai) hoặc Gemini (gemini.google.com) và bắt đầu một cuộc trò chuyện mới.
📋 Cách sao chép prompt này: Nhấp vào bất kỳ đâu bên trong khối màu xám, nhấn Cmd+A rồi Cmd+C (Mac) hoặc Ctrl+A rồi Ctrl+C (Windows). Hoặc sử dụng biểu tượng sao chép xuất hiện.
pip install pandas openpyxl✏️ Cách điền thông tin chi tiết: Thay thế mỗi [] và trình giữ chỗ trong ngoặc bằng thông tin cụ thể từ tình huống thực tế của bạn. Thông tin đầu vào mơ hồ sẽ tạo ra kết quả mơ hồ — hãy cụ thể.
👀 Những gì bạn sẽ thấy: Trong vòng vài giây, AI sẽ trả về một phản hồi có cấu trúc dựa vào prompt ở trên. Hãy đọc kỹ và coi đó là bản nháp, không phải câu trả lời cuối cùng.
📌 Nên làm gì với kết quả: Lưu phản hồi vào file Notes. Chọn gợi ý có tác động cao nhất và thực hiện nó trong tuần này — đừng cố gắng làm mọi thứ cùng một lúc.
⚠️ Nếu kết quả không ổn: Nếu các gợi ý có vẻ chung chung, hãy dán nội dung sau: "Hãy cụ thể hơn với ngữ cảnh thực tế của tôi. Bỏ qua lời khuyên chung chung." Nếu nó bỏ qua các chi tiết quan trọng bạn đã cung cấp, hãy hỏi: "Bạn đã bỏ sót [X] trong ngữ cảnh của tôi — hãy thực hiện lại với điều đó làm ràng buộc chính."
| Tác vụ | Code pandas | Chức năng của nó |
| Đọc file CSV |
| Load file CSV vào trong DataFrame |
| Đọc file Excel |
| Load bảng cụ thể |
| Lọc hàng |
| Chỉ giữ lại các hàng trùng khớp |
| Đổi tên cột |
| Dọn dẹp tên cột |
| Xóa các bản sao |
| Loại bỏ các bản ghi trùng lặp theo cột |
| Điền vào chỗ trống |
| Xử lý các giá trị bị thiếu |
| Nhóm & tổng hợp |
| Thống kê tóm tắt |
| Lưu vào Excel |
| Định dạng xuất |
Prompt AI:
Viết một script Python sử dụng pandas để xử lý file CSV doanh số hàng tháng: (1) Đọc file CSV, bỏ qua các hàng siêu dữ liệu (3 dòng đầu tiên), (2) Làm sạch tên cột: viết thường, thay thế khoảng trắng bằng dấu gạch dưới, (3) Chuyển đổi cột "số tiền": loại bỏ "$" và "," và chuyển đổi thành số thực, (4) Phân tích cột "ngày" thành ngày giờ, (5) Lọc ra các hàng có "trạng thái" là "đã hủy" hoặc "thử nghiệm", (6) Thêm cột "tháng" được trích xuất từ ngày, (7) Tạo bản tóm tắt: tổng doanh thu, số lượng đơn đặt hàng, giá trị đơn hàng trung bình, 5 khách hàng hàng đầu theo tổng chi tiêu, (8) Lưu dữ liệu đã làm sạch và bản tóm tắt vào các trang tính riêng biệt trong một file Excel. Chấp nhận đường dẫn đầu vào/đầu ra làm đối số.Prompt AI:
Viết một script pandas để hợp nhất dữ liệu từ nhiều file Excel trong một thư mục. (1) Đọc tất cả các file .xlsx trong một thư mục được chỉ định, (2) Mỗi file có cùng các cột nhưng dữ liệu từ những tháng/vùng khác nhau, (3) Nối tất cả các file thành một DataFrame duy nhất, (4) Thêm cột "source_file" để theo dõi file nào chứa mỗi hàng, (5) Loại bỏ những hàng trùng lặp (cùng order_id trên các file), (6) Sắp xếp theo ngày, (7) Lưu dữ liệu đã kết hợp dưới dạng cả CSV và Excel. In bản tóm tắt: số file đã xử lý, tổng số hàng, số hàng trùng lặp đã loại bỏ.Các trường hợp hợp nhất dữ liệu phổ biến:
| Kịch bản | Hàm pandas | Ví dụ |
| Xếp chồng các file có cùng định dạng |
| Tổng hợp các báo cáo hàng tháng thành một |
| Kết nối trên cột chung |
| Khách hàng + Đơn hàng |
| Giá trị tra cứu |
| Thêm tên từ bảng tham chiếu |
Prompt AI:
Viết script pandas tạo báo cáo chất lượng dữ liệu cho bất kỳ file CSV nào: (1) Đối với mỗi cột: đếm giá trị null, đếm giá trị duy nhất, loại dữ liệu, giá trị mẫu, (2) Gắn cờ các vấn đề tiềm ẩn: những cột có giá trị bị thiếu >10%, các cột trông giống như ngày nhưng được lưu trữ dưới dạng chuỗi, cột số được lưu dưới dạng chuỗi (chứa "$" hoặc ","), những hàng trùng lặp, (3) Tạo báo cáo HTML với bảng hiển thị số liệu thống kê cột và danh sách các vấn đề được tìm thấy. Script này sẽ hoạt động trên BẤT CỨ CSV nào - không giả sử các tên cột cụ thể.✅ Kiểm tra nhanh: Script của bạn xử lý file CSV trong đó một số hàng có dấu phẩy bên trong các trường được trích dẫn: "Smith, John" trong cột tên. Liệu pd.read_csv() có xử lý việc này chính xác không?
Trả lời: Có - pandas xử lý chính xác các trường được trích dẫn theo mặc định. Định dạng CSV tiêu chuẩn sử dụng dấu ngoặc kép để thoát dấu phẩy trong các trường. Tuy nhiên, nếu CSV của bạn sử dụng dấu phân cách hoặc dấu ngoặc kép không chuẩn, bạn có thể cần chỉ định các tham số delimiter và quotechar.
Mẹo AI: Nếu CSV của bạn trông kỳ lạ, hãy dán 5 dòng đầu tiên vào AI và hỏi "Tôi cần những tham số read_csv nào cho định dạng này?"
pandas có thể đọc và viết Excel, nhưng đối với đầu ra được định dạng (tiêu đề in đậm, định dạng có điều kiện), hãy sử dụng openpyxl:
Prompt AI cho đầu ra Excel được định dạng:
Cải thiện script pandas của tôi để lưu kết quả Excel được định dạng bằng openpyxl: (1) Tiêu đề in đậm, màu xanh lam với các ô cố định, (2) Định dạng tiền tệ ($#,##0,00) trên cột số tiền, (3) Định dạng ngày (YYYY-MM-DD) trên cột ngày, (4) Tự động điều chỉnh độ rộng cột để phù hợp với nội dung, (5) Thêm định dạng có điều kiện: nền đỏ cho số tiền âm, màu xanh lá cây cho số tiền trên 1.000 USD, (6) Thêm hàng tóm tắt ở dưới cùng với tổng số.pandas biến 20 phút công việc Excel thủ công thành script dài 2 giây: đọc, dọn dẹp, chuyển đổi và xuất dữ liệu đều là những thao tác đơn giản trong pandas và AI sẽ tạo ra quy trình hoàn chỉnh khi bạn mô tả dữ liệu cụ thể và đầu ra mong muốn của mình
Làm sạch dữ liệu là mục tiêu tự động hóa có giá trị cao nhất vì các mẫu dữ liệu lộn xộn giống nhau xuất hiện trong mọi báo cáo: giá trị bị thiếu, định dạng ngày không nhất quán, số được mã hóa chuỗi và hàng trùng lặp — hãy xây dựng quy trình làm sạch một lần và quy trình này luôn chạy hoàn hảo
Hãy cụ thể với AI về định dạng dữ liệu của bạn: dán các hàng mẫu, mô tả tên cột, chỉ định "sạch" nghĩa là gì với bạn và bao gồm những trường hợp đặc biệt (dấu phẩy được trích dẫn, định dạng ngày hỗn hợp, ký tự đặc biệt) — điều này tạo ra các script hoạt động trong lần thử đầu tiên của bạn
Nguồn tin: Quantrimang.com
Ý kiến bạn đọc
Những tin mới hơn
Những tin cũ hơn
Tự động hóa file và thư mục bằng Python với AI
Hướng dẫn tạo ảnh minh họa thơ, truyện kiểu sách lật
TOP công cụ AI hỗ trợ viết luận văn, nghiên cứu khoa học
Xây dựng Production Page trong phát triển frontend với AI
TOP tiện ích mở rộng AI tốt nhất cho Google Chrome
Hướng dẫn tạo vòng quay gọi tên học sinh
Mẹo nhập Context hiệu quả trong Cursor
Prompt dùng Gemini phân tích cấu trúc video bất kỳ
Xử lý dữ liệu với pandas
Cách tạo chỉ mục codebase trong Cursor
TOP công cụ phát hiện nội dung AI chính xác nhất
Tích hợp API trong tự động hóa Python với AI
Hướng dẫn tạo ảnh chân dung chibi 3D phiên bản thu nhỏ
Prompt tạo ảnh chân dung nữ siêu thực bằng AI
TOP công cụ AI giải Toán tốt nhất nên thử
Hướng dẫn tách nền ảnh trên ChatGPT chuyên nghiệp
Hướng dẫn thiết kế logo trên Canva bằng AI
Cách tạo Storybook truyện tranh bằng Canva AI