Google Gemini Omni: Biến mọi thứ thành video

Thứ năm - 21/05/2026 02:01

Google vừa giới thiệu một trong những bước tiến tham vọng nhất của hệ sinh thái Gemini tại sự kiện Google I/O 2026: Gemini Omni — dòng mô hình multimodal mới có khả năng tạo video từ nhiều loại đầu vào khác nhau như hình ảnh, âm thanh, video và văn bản.

Điểm đáng chú ý là Omni không đơn giản chỉ “ghép” các input lại với nhau. Hệ thống có thể reasoning xuyên suốt giữa nhiều loại dữ liệu để tạo ra video có tính nhất quán hơn về nội dung, chuyển động và ngữ cảnh. Nói cách khác, Google đang cố gắng biến Gemini từ một AI hiểu nội dung thành một AI có thể mô phỏng thế giới thực ở mức sâu hơn.

Với người dùng phổ thông, Gemini Omni mở ra một kiểu workflow hoàn toàn mới: chỉ cần mô tả ý tưởng bằng ngôn ngữ tự nhiên, thêm vài hình ảnh hoặc đoạn âm thanh, AI sẽ tự tạo video hoàn chỉnh thay vì phải dựng thủ công bằng phần mềm edit truyền thống.

Gemini Omni là gì?

Theo chia sẻ từ CEO Sundar Pichai, mục tiêu dài hạn của Gemini ngay từ đầu là xây dựng một mô hình AI “natively multimodal” — tức một neural network duy nhất được train đồng thời trên văn bản, hình ảnh, âm thanh, video và code.

Gemini Omni chính là bước tiếp theo trong lộ trình đó.

Khác với các công cụ AI video trước đây vốn chủ yếu hoạt động theo kiểu text-to-video, Omni cho phép kết hợp nhiều loại input cùng lúc. Người dùng có thể đưa vào prompt văn bản, ảnh, video hoặc audio, sau đó AI sẽ tự hiểu mối liên hệ giữa tất cả dữ liệu đó để tạo ra video đầu ra nhất quán hơn.

Google mô tả đây là bước chuyển từ “AI dự đoán văn bản” sang “AI mô phỏng thực tại”. Và nếu nhìn vào cách Omni hoạt động, có thể thấy Google đang muốn xây dựng một AI không chỉ tạo nội dung mà còn hiểu logic vận hành của thế giới thật.

Gemini Omni có thể làm được gì?

Một trong những khả năng đáng chú ý nhất của Omni là tạo video từ nhiều loại dữ liệu kết hợp cùng lúc. Ví dụ được Google trình diễn là prompt:

“a claymation explainer of protein folding”.

Sau đó Omni tự tạo một video stop-motion dạng claymation kèm voice-over giải thích cách protein gấp nếp trong sinh học. Điều quan trọng nằm ở chỗ AI không chỉ tạo hình ảnh chuyển động mà còn hiểu ngữ cảnh khoa học, cấu trúc nội dung và phong cách hình ảnh phù hợp với yêu cầu.

Ngoài video generation, Omni còn hỗ trợ chỉnh sửa ảnh bằng prompt văn bản tương tự tính năng Nano Banana của Google. Người dùng có thể yêu cầu AI xóa vật thể, thay đổi background hoặc chỉnh sửa chi tiết ảnh mà không cần dùng phần mềm edit phức tạp.

Điều này khiến Omni tiến gần hơn tới khái niệm “AI creative engine” thay vì chỉ là video generator đơn thuần.

Tạo avatar AI cá nhân là tính năng đáng chú ý nhất

Một trong những tính năng được Google nhấn mạnh nhiều nhất là khả năng tạo video bằng avatar số của chính người dùng. Về cơ bản, người dùng có thể tạo phiên bản AI của bản thân rồi dùng nó để xuất hiện trong các video do Omni tạo ra.

Google đưa ra nhiều ví dụ khá “consumer-oriented” như tạo video nhận giải thưởng, bay lên mặt trăng hoặc biến clip đời thường thành meme cá nhân hóa. DeepMind mô tả các video kiểu này giống như “personalized memes” — tức meme nhưng dùng chính hình ảnh và giọng nói của người dùng.

Để hạn chế deepfake, Google yêu cầu người dùng trải qua quy trình onboarding riêng khi tạo avatar. Người dùng phải quay video xác minh và đọc một chuỗi số để hệ thống kiểm tra danh tính trước khi avatar được lưu lại để sử dụng sau này.

Ngoài ra, toàn bộ video được tạo bằng Omni sẽ được gắn watermark kỹ thuật số SynthID của Google để hỗ trợ xác minh nội dung AI-generated.

Google đang tập trung vào trải nghiệm đơn giản cho người phổ thông

Gemini Omni Flash hiện được định vị chủ yếu cho người dùng phổ thông thay vì workflow chuyên nghiệp ngay từ đầu. Google cho rằng phần lớn AI video model hiện nay vẫn còn quá khó tiếp cận với người dùng bình thường, vì vậy Omni Flash được tối ưu theo hướng dễ dùng, tạo video nhanh và không cần hiểu kỹ thuật dựng phim.

Hiện tại, Omni Flash có thể render video dài khoảng 10 giây. Google cho biết đây không phải giới hạn kỹ thuật của model mà là quyết định nhằm giảm chi phí compute, mở rộng lượng người dùng và phù hợp với nhu cầu video ngắn hiện nay. Tuy nhiên, video dài hơn đã nằm trong roadmap cập nhật sắp tới.

Google cũng xác nhận Gemini Omni Flash sẽ bắt đầu rollout trên ứng dụng Gemini, YouTube Shorts và nền tảng AI creative studio Flow. Điều này cho thấy Google đang muốn đưa AI video generation trực tiếp vào các nền tảng creator thay vì biến nó thành công cụ độc lập.

Đặc biệt, tính năng avatar AI hiện đã xuất hiện ngay trên Shorts — nơi Google rõ ràng muốn cạnh tranh mạnh hơn trong cuộc đua AI creator tools.

Gemini Omni có thể thay đổi cách doanh nghiệp sản xuất nội dung

Dù hiện tại Google tập trung khá mạnh vào người dùng phổ thông, tác động lớn hơn của Gemini Omni nhiều khả năng sẽ nằm ở lĩnh vực marketing và sản xuất nội dung.

Một workflow multimodal end-to-end có thể thay đổi đáng kể cách doanh nghiệp làm video quảng cáo. Thay vì phải viết brief, tìm editor, dựng video, thêm voice-over rồi render thủ công, doanh nghiệp có thể chỉ cần upload ảnh sản phẩm, thêm slogan và mô tả concept, sau đó AI tự tạo toàn bộ campaign video.

Google đặc biệt nhấn mạnh khả năng render văn bản chính xác trong video — yếu tố rất quan trọng với quảng cáo và branding nhưng vốn là điểm yếu của nhiều AI video model hiện nay.

Ngoài marketing, Google cũng cho rằng filmmaker và creator chuyên nghiệp sẽ bắt đầu khai thác Omni để tăng tốc workflow sản xuất nội dung trong tương lai gần.

Gemini Omni không đơn thuần là bản nâng cấp của Veo — mô hình AI video hiện tại của Google. Theo DeepMind, đây là bước tiếp theo trong việc kết hợp “trí thông minh” của Gemini với khả năng render media của các model tạo nội dung.

Tầm nhìn dài hạn của Google còn rộng hơn nhiều. Trong tương lai, Omni có thể tạo hình ảnh từ âm thanh, tạo âm thanh từ video hoặc chuyển đổi linh hoạt giữa mọi loại media khác nhau.

Nếu đi đúng hướng, Omni có thể trở thành nền tảng “universal multimodal AI” — nơi mọi loại dữ liệu đều có thể chuyển đổi qua lại bằng prompt tự nhiên. Đó cũng là lý do Google mô tả AI đang chuyển từ “predicting text” sang “simulating reality”.

Nguồn tin: Quantrimang.com