Cách chạy LLM trên điện thoại Android bằng MNN Chat

Thứ ba - 10/02/2026 00:54

Nhiều người đã mày mò với các mô hình ngôn ngữ lớn (LLM) cục bộ trên máy tính của mình một thời gian rồi. Mọi chuyện bắt đầu như một sở thích khi chạy DeepSeek-R1 cục bộ trên máy Mac, và giờ đây nó đã trở thành một phần khá tuyệt vời trong quy trình làm việc của họ.

Họ đã thử hầu hết các ứng dụng suy luận AI cục bộ phổ biến trên Android, và hiệu năng luôn là điểm yếu lớn nhất. Họ đã phải làm việc với những hạn chế nghiêm trọng về phần cứng vì, đó vẫn chỉ là một chiếc điện thoại. Điều đó khiến khía cạnh phần mềm trở nên cực kỳ quan trọng. Đó là nơi mà MNN Chat hoàn thành tốt nhiệm vụ.

Tải MNN Chat trên Google Play Store

https://www.anrdoezrs.net/links/7251228/type/dlg/sid/UUmuoUeUpU2040453/https://play.google.com/store/apps/details?id=com.alibaba.mnnllm.android.release

MNN Chat trên GitHub

https://github.com/alibaba/MNN

MNN Chat là ứng dụng LLM cục bộ tốt nhất mà bạn có thể thử

MNN chạy Qwen 2.5

MNN chạy Qwen 2.5

Điều thú vị đầu tiên về MNN Chat là nó thực sự là một dự án mã nguồn mở được phát triển bởi Alibaba. Bản thân công cụ suy luận được xây dựng đặc biệt để chạy các mô hình LLM hiệu quả trên phần cứng di động, không cần đến những tính năng cao cấp của GPU. Mặc dù ứng dụng có trên Play Store, bạn vẫn có thể xem mã nguồn trên trang GitHub của nó.

Nó có hiệu suất tốt nhất từng thử nghiệm khi chạy các mô hình cục bộ trên Android. Nhưng trước khi bắt đầu, bạn cần biết một vài điều. Trước hết, bạn cần một chiếc điện thoại có cấu hình tương đối mạnh. Tác giả bài viết đã chạy tất cả các mô hình của mình trên Samsung Galaxy S24 Ultra với 12GB RAM, thuộc phân khúc cao cấp theo tiêu chuẩn điện thoại.

Tuy nhiên, nếu muốn tiết kiệm chi phí, bạn nên có ít nhất 8GB RAM trống để có trải nghiệm sử dụng tốt với các mô hình nhỏ hơn. Nó cũng đi kèm với nhiều tính năng hữu ích khác. Nếu bạn không chắc nên chạy mô hình nào vì không biết mô hình nào hoạt động tốt nhất, có chế độ kiểm tra hiệu năng tích hợp sẵn để giúp bạn quyết định.

Bạn cũng không cần phải tìm kiếm trên Internet các mô hình hoạt động. MNN Chat bao gồm một thư viện trong ứng dụng để bạn có thể tải xuống các mô hình trực tiếp mà không cần rời khỏi app.

Bạn nhận được cả một kho mô hình, sẵn sàng để sử dụng

Việc thiết lập MNN Chat thực ra khá dễ dàng. Tất cả những gì bạn cần làm là mở ứng dụng và truy cập vào Models Market. Tại đây, bạn sẽ thấy toàn bộ danh sách các mô hình có sẵn mà bạn có thể tải xuống thông qua Hugging Face. Nếu bạn chưa biết Hugging Face là gì, thì về cơ bản đó là một trong những kho lưu trữ mô hình AI mã nguồn mở lớn nhất.

Tại đây, tất cả những gì bạn cần làm là nhấn tải xuống bên cạnh mô hình mình muốn, và nó sẽ sẵn sàng để sử dụng ngay sau khi quá trình tải xuống hoàn tất. Phần khó hơn là thực sự quyết định chọn mô hình nào.

Các mô hình này có thể có dung lượng từ vài trăm megabyte đến nhiều gigabyte. Bạn nên đảm bảo mình có đủ dung lượng lưu trữ trống, đặc biệt nếu bạn dự định tải xuống các mô hình lớn hơn hoặc cài đặt nhiều mô hình cùng lúc.

Trong danh sách, bạn sẽ thấy một loạt các tên quen thuộc như Qwen, DeepSeek hoặc Llama. Một điều bạn sẽ nhanh chóng nhận thấy là mỗi tên model đều bao gồm một con số theo sau là chữ B, ví dụ như gemma-7b.

Models Market trong MNN

Models Market trong MNN

Sau khi tải xuống, bạn chỉ cần vào mục My Models và bắt đầu trò chuyện với nó. Bạn thậm chí có thể sửa đổi prompt hệ thống bằng cách nhấp vào biểu tượng menu ba gạch ở góc trên bên phải và chuyển đến Settings > System Prompt.

Bạn cũng có thể thay đổi số lượng token mới tối đa ở đây, điều này đơn giản chỉ kiểm soát độ dài phản hồi của mô hình trước khi nó ngừng tạo văn bản.

Không chỉ là các mô hình ngôn ngữ lớn (LLM)

MNN đang chạy một mô hình xử lý hình ảnh

MNN đang chạy một mô hình xử lý hình ảnh

Trong Models Market, bạn có thể nhận thấy có một số danh mục dành cho việc tạo hình ảnh, âm thanh, video, v.v... Về cơ bản, nó đúng như tên gọi. Bạn có thể tải xuống và chạy các mô hình không chỉ tạo văn bản, mà còn bao gồm những mô hình đa phương thức có thể hoạt động với cả hình ảnh.

Một điều thực sự thú vị bạn có thể làm với điều này là tích hợp các loại mô hình khác nhau để có được thứ gì đó tương tự như chế độ giọng nói của ChatGPT. Khi chạy một LLM, bạn có thể nhận thấy có một biểu tượng điện thoại ở góc trên bên phải.

Từ đây, bạn cần tải xuống một mô hình chuyển văn bản thành giọng nói mà mình chọn. Bạn cũng cần một mô hình nhận dạng giọng nói tự động (ASR) để chuyển đổi giọng nói của mình thành văn bản. Sau đó, mọi thứ đã được thiết lập và bạn có thể bắt đầu nói chuyện với LLM cục bộ của mình bằng giọng nói.

Tuy nhiên, hãy nhớ rằng tất cả các mô hình này nhanh chóng chiếm rất nhiều dung lượng, như bài viết đã đề cập trước đó. Nếu muốn sử dụng một mô hình không có sẵn trên HuggingFace, bạn có thể tự nhập nó thông qua ADB.

Nguồn tin: Quantrimang.com