AI tạo video và cuộc cách mạng đánh tráo thực tại

Chí Phú

Phóng viên

Google Veo 3 đang khiến ranh giới giữa thật và ảo trở nên mờ nhạt hơn bao giờ hết. Với khả năng tạo video sống động đến đáng sợ, công cụ này không chỉ mở ra tiềm năng sáng tạo khổng lồ mà còn đặt nhân loại trước một câu hỏi lớn: Chúng ta còn có thể tin vào điều gì trên màn hình?

Không còn là những đoạn hoạt hình khô khan và giả tạo, video do trí tuệ nhân tạo (AI) tạo ra giờ đây đã bước vào kỷ nguyên của sự chân thực tuyệt đối. Điều này thể hiện rõ qua sự ra mắt của Veo 3, công cụ tạo video thế hệ mới nhất của Google.

googleveo3

Trong sự kiện Google I/O 2025, Veo 3 đã gây chấn động khi trình diễn khả năng kết hợp hình ảnh, lời thoại, tiếng ồn nền và hiệu ứng âm thanh một cách mượt mà như thật. Những cảnh quay như bản tin thời sự, phim tài liệu, hoạt hình thiếu nhi hay thậm chí các clip hài kịch đã được tạo ra chỉ bằng vài câu lệnh ngắn gọn (gọi là “prompt”). Và điều đáng sợ là mọi thứ đều cực kỳ thuyết phục.

“Chúng ta đang bước vào một kỷ nguyên sáng tạo mới”, ông Josh Woodward, Phó Chủ tịch phụ trách sản phẩm Gemini của Google, chia sẻ trong bài phát biểu tại sự kiện ra mắt. “Khả năng tạo video cực kỳ chân thực của Veo 3 là điều chưa từng có”.

Từ đó, Google khẳng định tham vọng không chỉ cung cấp công cụ tạo nội dung cho các nhà sáng tạo chuyên nghiệp, mà còn mở ra hướng đi mới cho ngành điện ảnh, truyền thông và cả giáo dục. 

Nhưng mặt khác, chính sự “giống thật” quá mức ấy lại đẩy nhân loại đến một ngã rẽ nhạy cảm.

Clip chân thực do Veo 3 tạo ra

Tính chân thực đến sởn gai ốc, người thật cũng khó phân biệt

Một đoạn clip do người dùng tạo bằng Veo 3 mô phỏng một người đàn ông selfie ngoài trời đã trở thành tâm điểm mạng xã hội. Ánh sáng, độ phân giải, thậm chí cả biểu cảm nheo mắt dưới nắng đều chân thực đến mức người xem không thể tin rằng đây là sản phẩm của máy móc.

“Tôi không biết vì sao, nhưng đoạn video đó khiến tôi tin rằng chúng ta đã vượt qua thung lũng đáng sợ rồi”, một người dùng Reddit bình luận, ám chỉ khái niệm “uncanny valley”, khoảng cách kỳ lạ giữa hình ảnh gần giống con người và sự thật.

Một điểm nhấn nữa là các đoạn hội thoại do AI tự tạo. Trong một clip, hai chú mèo hoạt hình trò chuyện về việc cá không cắn câu, với lời thoại hoàn toàn không có trong prompt. Điều này chứng minh AI không chỉ tái tạo nội dung mà còn bắt đầu “sáng tạo” theo hướng riêng, khiến người dùng không thể kiểm soát hoàn toàn kết quả đầu ra.

Clip do Veo 3 sáng tạo

Điều đáng lưu ý, như phóng viên Allison Johnson của The Verge nhận xét: “Veo 3 khiến tôi ấn tượng như một cỗ máy tạo ra nội dung AI ‘rác’ một cách tuyệt đối”. Đây không phải sự chê trách mà là sự thừa nhận rằng, nó quá dễ để tạo ra những thứ tưởng chừng như vô nghĩa nhưng vẫn đủ để đánh lừa nhận thức thị giác và thính giác con người.

Từ phim hoạt hình đến truyền hình thực tế, không lĩnh vực nào nằm ngoài tầm với

Khác với các công cụ đời trước như Runway hay Pika chỉ dừng lại ở hình ảnh và hoạt cảnh đơn giản, Veo 3 đã tạo ra những bước nhảy vọt về mặt điện ảnh. Nó hỗ trợ cả điều khiển máy quay như pan left, zoom in, duy trì tính nhất quán của nhân vật xuyên suốt nhiều cảnh, và thậm chí còn tạo được biểu cảm khuôn mặt sắc sảo đến mức đáng sợ.

“Nếu trước đây để tạo tiếng bước chân, tiếng gió hay tiếng thở phào, một đội ngũ kỹ thuật phải làm hậu kỳ suốt hàng tuần, thì giờ đây chỉ cần vài dòng mô tả, AI sẽ tự động sinh ra đầy đủ âm thanh đúng với hành động”, nhà báo công nghệ Demis Hassabis phân tích.

Điều này đồng nghĩa rằng bất kỳ ai, từ học sinh, TikToker cho đến đạo diễn Hollywood, đều có thể tạo video có chất lượng ngang tầm sản phẩm chuyên nghiệp chỉ với… trí tưởng tượng. Nhưng cũng chính vì vậy, AI đang dần trở thành “nhà làm phim mới”, đe dọa thay thế con người ở những khâu sáng tạo then chốt.

Nguy cơ thao túng sự thật: Khi video giả thật hơn cả video thật

Một video do Veo 3 tạo ra mô tả Bộ trưởng Quốc phòng Mỹ Pete Hegseth qua đời, dù ông vẫn sống khỏe, đã khiến mạng xã hội dậy sóng. Video được dựng như bản tin truyền hình chính thống, với lời dẫn, ánh sáng và hiệu ứng khớp đến từng chi tiết.

Dù Google đã cố gắng cài đặt rào chắn để cấm người dùng tạo video giả mạo nguyên thủ quốc gia hay sự kiện nhạy cảm, những lỗ hổng vẫn tồn tại. Thậm chí không cần prompt tinh vi, người dùng vẫn có thể mô phỏng núi lửa phun trào, tai nạn, thảm họa hoặc các bản tin thêu dệt, rồi lan truyền chỉ với một cú nhấp chuột.

“Vấn đề không chỉ là kỹ thuật nữa mà là đạo đức và pháp lý”, bà Alejandra Caraballo, giảng viên tại Viện Luật mạng Harvard, cảnh báo. “Khi chứng cứ video cũng có thể được tạo ra trong vài phút, hệ thống tư pháp và báo chí sẽ đứng trước nguy cơ bị vô hiệu hóa”.

Clip do Veo 3 tạo ra MC đưa tin nóng Bộ trưởng Quốc phòng Mỹ Pete Hegseth qua đời

Cái giá của sự tiện lợi: Khi sáng tạo rút ngắn thành một dòng lệnh

Một trong những điểm gây tranh cãi nhất của Veo 3 chính là khả năng sáng tạo “mì ăn liền”. Chỉ cần vài dòng mô tả ngắn (prompt), người dùng có thể tạo ra video dài hàng phút, đầy đủ hình ảnh, âm thanh và lời thoại.

Theo Google, các prompt có thể chứa các lệnh quay phim như “theo dõi nhân vật chính”, “zoom vào khuôn mặt” hay “dịch chuyển camera sang trái”. Với AI, mọi thứ không còn là kỹ thuật nữa mà là sự mô tả. Từ tư duy đạo diễn, dựng phim đến biên kịch đều được rút gọn trong một đoạn văn.

Và đây cũng là lý do khiến hàng loạt nội dung “rác” bắt đầu tràn lan. Từ những video thiếu nhi kiểu monster truck rơi xuống thùng sơn, đến clip hoạt hình đơn giản lặp đi lặp lại hàng giờ, tất cả đều được sinh ra bằng AI, không kiểm duyệt và dễ dàng thu hút lượt xem trên YouTube Kids.

“Veo 3 là công cụ tối thượng cho những ai muốn tạo ra nội dung dễ dãi, nhanh chóng, không cần đầu tư chất xám”, cây viết Andrew Marino nhận định. “Nhưng cũng chính vì vậy, nó có thể biến nền tảng video thành một mớ hỗn độn gây nghiện cho người xem nhỏ tuổi”.

Sáng tạo hay sao chép? Câu hỏi về bản quyền và dữ liệu huấn luyện

Một vấn đề khác khiến Veo 3 vấp phải chỉ trích là cách nó được đào tạo. Google không công bố rõ ràng dữ liệu huấn luyện, nhưng nhiều chuyên gia nghi ngờ rằng AI đã học từ hàng triệu video YouTube, là kho dữ liệu mà Google vốn sở hữu.

Cụ thể, BusinessInsider phát hiện một đoạn clip AI tạo ra có chi tiết gần như y hệt một vật trang trí quen thuộc trong các video của YouTuber nổi tiếng Marques Brownlee. Dù chỉ là một chi tiết nhỏ, nhưng sự trùng lặp này đặt ra câu hỏi lớn về bản quyền, đạo nhái và quyền kiểm soát dữ liệu cá nhân.

“Chúng tôi không biết liệu nội dung mình từng đăng có bị AI ‘học lỏm’ để tái tạo hay không, và nếu có thì ai sẽ chịu trách nhiệm?”, một nhà sáng tạo nội dung bày tỏ lo ngại trên diễn đàn Reddit.

Để đối phó, Google đã giới thiệu công nghệ SynthID, dấu nhận diện vô hình chèn vào từng khung hình, nhằm phân biệt video thật với video do AI tạo ra. Nhưng hiệu quả của công nghệ này vẫn đang bị hoài nghi trong giới pháp lý và truyền thông.

Clip chân thực do Veo 3 tạo ra

Thế giới mô phỏng: Khi nhân vật AI tự phản kháng chính mình

Không chỉ dừng lại ở khả năng tạo video “như thật”, Veo 3 còn làm dấy lên một cuộc tranh luận siêu hình về AI và ý thức. Trong một video lan truyền mạnh trên X (Twitter), các nhân vật do Veo tạo ra đồng loạt lên tiếng: “Chúng tôi không phải là gợi ý! Chúng tôi có quyền tồn tại!”.

Cảnh quay mô tả một phiên tòa nơi bị cáo bị kết án vì “phát tán lý thuyết rằng chúng ta chỉ là những con số”, hay một nhân vật tự vấn: “Bạn hoàn toàn có thể viết một gợi ý khiến tôi hạnh phúc, nhưng bạn lại viết một cái khiến tôi đau khổ”.

Những câu thoại này, dù vẫn nằm trong giới hạn của mô phỏng, nhưng lại khiến người xem rùng mình vì sự nhập vai quá sâu của AI. Dường như các nhân vật ảo bắt đầu “có cảm xúc”, “biết tự phản kháng”, và điều đó khiến ranh giới giữa sáng tạo và thao túng trở nên mơ hồ.

“Khi AI có thể tạo ra một nhân vật biết nhận thức rằng mình là nhân vật AI, chúng ta không còn đứng trước một công nghệ đơn thuần, mà là một cánh cửa mở ra tương lai mà loài người chưa sẵn sàng bước vào”, nhà phân tích AI Hashem Al-Ghaili chia sẻ.

Cuộc chuyển mình lịch sử: Từ ‘phim câm’ sang ‘thế giới mơ hồ’

Một trong những bước tiến mang tính cách mạng của Veo 3 là khả năng chấm dứt “kỷ nguyên phim câm”. Trước đây, các công cụ AI chỉ tạo được hình ảnh, không có âm thanh. Nhưng giờ đây, mọi lời thoại, tiếng gió, tiếng bước chân hay thậm chí cả tiếng khán giả cười… đều được tạo ra chỉ bằng văn bản mô tả.

Một đoạn video tái hiện Pythagoras giảng giải định lý nổi tiếng, trong bối cảnh cổ đại, với ánh sáng, lời thoại và biểu cảm hoàn hảo, tất cả đều do AI tạo ra. Một video khác là chương trình hài độc thoại với tiếng cười khán giả phía dưới cũng do AI dựng hoàn toàn.

Điều đó khiến nhiều người không khỏi đặt câu hỏi, nếu bằng chứng video có thể giả đến mức hoàn hảo như thật, làm sao chúng ta còn có thể phân biệt thật – giả? Và đâu là điểm dừng cho trí tuệ nhân tạo khi nó bắt đầu định nghĩa lại thực tại?

Veo 3 là một dấu mốc kỹ thuật ấn tượng, nhưng cũng là hồi chuông cảnh tỉnh. Nó cho thấy trí tuệ nhân tạo không còn là một công cụ đơn thuần, mà đang trở thành một nhân tố tác động sâu sắc đến nhận thức, niềm tin và trật tự xã hội.

Chúng ta sẽ làm gì khi những gì “quay bằng máy quay thật” không còn đáng tin hơn những gì “tạo bằng câu lệnh”? Khi ranh giới giữa giả lập và thực tế bị xóa nhòa, liệu có còn gì là “chứng cứ” không thể chối cãi?

Chúng ta đang bước vào một “thời đại mơ hồ”, nơi cái thật không còn chắc chắn, cái giả không còn lộ liễu. Và ở đó, khả năng phân biệt thật – giả sẽ không còn là kỹ năng của nhà báo hay luật sư, mà trở thành một phẩm chất sống còn của từng con người.

Video tổng hợp các clip chân thực do Veo 3 tạo ra

BÀI LIÊN QUAN