Xem MV làm bằng AI của 'anh Bo' Đan Trường, làm video bằng AI như thế nào, có khó không?

Thay vì coi đây là trò đùa, thì mình nghĩ rằng MV Em Ơi Ví Dầu của Đan Trường là một bằng chứng cho việc công nghệ tạo sinh hình ảnh và video dựa trên trí thông minh nhân tạo hiện giờ vẫn chưa đủ chất lượng để thay thế cho những cảnh quay thật, tức là những lời hứa hẹn giảm chi phí sản xuất nội dung vẫn chưa trở thành hiện thực. MV vừa được đăng tải trên YouTube hai ngày trước đây:

Nhận xét thẳng thắn, không nể nang, phải thừa nhận MV này xấu. Nhưng thay vì chê bai như mọi cư dân mạng khác, thì mình nghĩ sẽ là ý hay khi phân tích cách video này được tạo ra, những công cụ được sử dụng, rồi nói tiếp đến lý do vì sao nó xấu, nhân tiện cho anh em một vài kinh nghiệm tạo hình rồi chuyển đổi hình ảnh tĩnh thành những đoạn video ngắn.

Rất dễ nhận ra công cụ mà ê kíp của anh Bo sử dụng để tạo ra đoạn MV dài 4 phút này.

Hai giải pháp cơ bản được sử dụng, là huấn luyện một cái LoRA dựa trên hình ảnh gương mặt của ca sĩ Đan Trường, và thứ hai là ứng dụng tạo hình tĩnh và dựa vào đó để biến chúng thành hình ảnh động, tức là những đoạn cắt cảnh ngắn lồng ghép vào giữa những cảnh anh Bo (phiên bản AI tạo ra) ngồi một chỗ mấp máy môi để hát. Thành ra chúng ta có thể đi đến giải pháp thứ ba, tức là lấy tấm hình tĩnh được tạo ra bằng công cụ AI, bỏ vào ứng dụng AI, cộng thêm âm thanh để xử lý lip-sync mấp máy môi theo lời bài hát, rồi lấy đoạn clip ngắn đó bỏ vào trong MV.

Desktop Screenshot 2024.07.07 - 19.11.07.47.jpg

Với những nhận định như thế, mình mạnh dạn dự đoán ê kíp của anh Bo dùng Stable Diffusion, cụ thể hơn là những mô hình dựa trên phiên bản SD 1.5. Có những khía cạnh rất dễ nhận ra, ví dụ như gương mặt AI tạo ra hơi quá mịn, nhìn “nhựa nhựa”, theo cách chính các anh em thành viên Tinhte mô tả những tấm hình mà các phiên bản mô hình Stable Diffusion của StabilityAI tạo ra.

Đọc thông tin bên VNExpress giới thiệu video này, thấy có dẫn lời anh Bo rằng “AI học thuộc gần 600 tấm ảnh của tôi để cho ra một phiên bản Đan Trường giống nhất. Dĩ nhiên hình ảnh thực hiện bằng công nghệ không đẹp, sống động như bên ngoài nhưng tôi muốn thử nghiệm làm điều mới mẻ.” Đấy chính là lý do mình nghĩ rằng, mọi hình ảnh anh Bo ngồi ngoài ruộng đội nón mặc sơ mi ngồi hát là thành quả của quá trình dùng card đồ họa huấn luyện một cái mô hình LoRA, viết tắt của Low Rank Adaptation.

Huấn luyện LoRA chỉ để tạo hình gương mặt Đan Trường

Đối với phạm vi của Stable Diffusion, LoRA được ứng dụng để tinh chỉnh lại một phần mô hình (checkpoint) thay vì tinh chỉnh toàn bộ weight của checkpoint, từ đó cho phép thay đổi phong cách của một số chi tiết nhất định trong bức hình mà AI tạo ra. Lấy ví dụ LoRA có thể tinh chỉnh chi tiết của từng dạng trang phục, đường nét gương mặt, đôi tay đôi chân để cho giống thật.

Còn ở trường hợp này, mình đoán là ê kíp thực hiện MV đã train hẳn một cái LoRA nho nhỏ chỉ để tạo ra những gương mặt người giống hệt như Đan Trường:

Desktop Screenshot 2024.07.07 - 19.11.15.74.jpg

Desktop Screenshot 2024.07.07 - 19.11.15.74.jpg

Wav2lip để ghép âm thanh khớp với cử động môi

Rồi những tấm hình ấy được ứng dụng tiếp công nghệ lip-sync để âm thanh khớp với cử động môi của nhân vật trong hình. Trước đây thì mình chỉ biết đến vài dịch vụ làm được như vậy, chẳng hạn như dịch vụ dựa trên mô hình AI Gen-2 của RunwayML, hoặc những dịch vụ như wav2lip hay KapWing. Còn gần đây, đã có người đem công nghệ Wav2lip để tạo thành một plug-in dùng trong giao diện Automatic1111 vận hành mô hình Stable Diffusion, vậy là hoàn toàn có thể tạo ra MV như anh em thấy ở trên bằng một cỗ máy tính cá nhân, khỏi cần bỏ tiền dùng dịch vụ trực tuyến nào hết.

Nhưng nói đến công cụ ghép lipsync để cử động môi nhân vật khớp với âm thanh, thì cũng phải nhắc đến chính bản thân công cụ mà mình đoán đã được ứng dụng để tạo ra MV này. Rất có thể công cụ AnimateDiff, biến hình ảnh thành video dựa trên mô hình StableDiffusion đã được ứng dụng. Vì sao mình lại đoán như thế? Anh em xem MV ở trên, để ý mấy đoạn cơi trầu, mâm cơm hay cảnh đám cưới miền Tây, chúng có đầy đủ những đặc tính của những đoạn hình ảnh tạo ra bằng Stable Diffusion.

Desktop Screenshot 2024.07.07 - 19.13.14.41.jpg

Desktop Screenshot 2024.07.07 - 19.13.14.41.jpg

Desktop Screenshot 2024.07.07 - 19.23.34.61.jpg

Desktop Screenshot 2024.07.07 - 19.23.43.99.jpg

AnimateDiff, ControlNet và LCM

AnimateDiff và sampler LCM là hai công cụ thường được sử dụng nhất trong quá trình tạo ra những đoạn video ngắn dựa trên Stable Diffusion, dù anh em dùng Automatic1111 hay ComfyUI. Cái này mình cũng đang nghiên cứu để làm bài hướng dẫn cho anh em nghịch thử.

Sampler LCM vận hành bằng cách phân tích hình ảnh, hoặc tạo ra những tấm hình dựa trên câu lệnh văn bản của người dùng. Sau đó, anh em sẽ được chọn số khung hình mỗi giây cho đoạn video, cùng thời lượng đoạn video. Nhân số khung hình mỗi giây với số giây của một đoạn cắt cảnh, chúng ta sẽ có tổng số khung hình mà máy tính phải vận hành Stable Diffusion. Máy phải tạo ra đủ số khung hình ấy rồi ghép lại với nhau thành đoạn clip hoàn chỉnh.

Chính vì cách vận hành như thế, nên chi tiết của những đoạn clip tạo ra bằng Stable Diffusion không bao giờ đồng nhất, đặc biệt là những chi tiết nhỏ như tóc, chi tiết trên trang phục, hiệu ứng ánh sáng hay những tiểu tiết rất nhỏ trong hình ảnh. Chúng có xu hướng “nhảy nhót” liên tục, chẳng hạn như thế này:

Nhưng mà cái hay của LCM nói riêng và AnimateDiff nói chung, là khả năng kiểm soát chi tiết hình ảnh dựa trên ControlNet:

ControlNet là một gói giải pháp kiểm soát chất lượng và kết quả đầu ra của hình ảnh được tạo ra bằng những mô hình SD. Với công cụ này, anh em có thể ép SD phải làm hình ảnh với bố cục, chi tiết, cử động cơ thể chính xác như những gì anh em muốn. Lấy ví dụ chẳng hạn như anh em có một tấm hình gốc, muốn tái tạo lại để trông hay hơn, lạ hơn, có thể dùng tính năng Canny hoặc SoftEdge. Nếu muốn cử động của nhân vật trong hình SD tạo ra giống hệt như hình mẫu thì sẽ dùng OpenPose. Hoặc muốn tấm hình tạo ra có chiều sâu giống hệt như hình mẫu, thì chọn Depth…

Quay lại với cái MV của anh Bo. Nhìn tấm hình bữa cơm gia đình mà mình screenshot ở trên, có thể đưa ra dự đoán là đoạn clip được tạo ra bằng cách bỏ tấm hình chụp bữa cơm thật vào, rồi dùng ControlNet và AnimateDiff để tạo ra một đoạn clip ngắn chừng 4 đến 5 giây.

Có rất nhiều đoạn cắt cảnh trong MV của anh Bo được làm theo cách tương tự, chẳng hạn như đoạn dưới đây, có thể đã lấy hình chụp một cô gái đi trên con đường làng rồi ghép thêm chi tiết hình ảnh ở nền. Rồi sau đó ê kíp phát hiện ra là cần cái nón, thế là dùng inpainting để ghép thêm vào, hệ quả là cái nón vừa quá to vừa lệch.

Desktop Screenshot 2024.07.07 - 19.11.32.22.jpg

Desktop Screenshot 2024.07.07 - 19.11.32.22.jpg

Nhưng với chính cái đoạn cắt cảnh này, mình phải nhấn mạnh một lợi thế của những công cụ tạo sinh video bằng mô hình AI.

Chèn hậu cảnh bằng Stable Diffusion

Anh em để ý cái tiền cảnh và hậu cảnh chẳng ăn nhập gì với nhau. Lý do là, rất có thể hình ảnh chụp cô gái đi trên con đường làng có nền không đẹp, nên đã bị cắt ra, rồi bỏ vào Stable Diffusion để chế thêm “đồng ruộng mênh mông xa tít tắp.” Mỗi tội, SD thì không phân biệt được đồng ruộng vùng đồng bằng miền Tây và ruộng bậc thang ở vùng miền núi Tây Bắc nước mình, thành ra nhiều cảnh trong video vừa lệch về bố cục, vừa có cảm giác lệch về hình ảnh. Một ví dụ khác ở dưới đây. Cảnh chạy xe hơi là thật, còn cây cỏ ruộng đồng rồi cả rặng núi xa xa là AI chế ra.

Desktop Screenshot 2024.07.07 - 19.11.45.27.jpg

Desktop Screenshot 2024.07.07 - 19.11.45.27.jpg

Đừng vì đoạn MV này mà bỏ qua lợi thế rất lớn của những công cụ tạo sinh video bằng mô hình AI trong tương lai. Nó có thể tạo ra những đoạn video làm nền hoặc cắt cảnh ngắn rất tốt, tiết kiệm rất nhiều thời gian trong quá trình sản xuất nội dung.

Trùng hợp là hôm giữa tuần vừa rồi, mình có nghịch thử Gen-3 của Runway, tạo ra những đoạn clip cũng chỉ dài từ 5 đến 10 giây, nhưng chất lượng rất khác so với AnimateDiff trên Stable Diffusion, đơn giản vì cách vận hành tạo video của hai giải pháp này khác nhau hoàn toàn. Một công cụ tạo sinh video dựa trên việc hiểu chiều sâu và logic vật lý. Công cụ còn lại chỉ đơn thuần biến hình ảnh tĩnh thành những khung hình ghép lại với nhau thành video động mà thôi:

Vì sao MV xấu?

Mình mạnh dạn đưa ra dự đoán, rằng MV của anh Bo trông hơi buồn cười một chút về mặt hình ảnh, là vì cả hai khía cạnh: Giới hạn khả năng tạo sinh hình ảnh, rồi biến hình ảnh thành video của StableDiffusion, và thứ hai là giới hạn về khả năng điều khiển công cụ AI của ê kíp làm MV.

Đầu tiên và quan trọng nhất, là tổng thể tông màu của đoạn MV. Nhìn những khung hình màu rất rực, đoạn nào cũng xanh lét, rồi hình ảnh không hề chi tiết, dễ nhận ra ê kíp làm MV có vẻ đã quên việc làm hậu kỳ cho MV, cứ có đoạn cắt cảnh anh Bo phiên bản AI ngồi hát hay những cảnh trong kịch bản làm ra bằng công cụ AI là ghép nối lại với nhau thành một cái MV. Những đoạn clip này hoàn toàn có thể được bỏ vào Premiere Pro hay DaVinci Resolve để xử lý hậu kỳ, chỉnh màu sắc, chỉnh LUT để tạo ra chất điện ảnh, nhìn nịnh mắt hơn nhiều so với những khung hình quá rực như thế này.

Desktop Screenshot 2024.07.07 - 19.24.15.76.jpg

Desktop Screenshot 2024.07.07 - 19.24.15.76.jpg

Thứ hai là khả năng điều khiển prompt và những công cụ như ControlNet và Inpainting trong giao diện vận hành Stable Diffusion. Nhìn MV có những đoạn hình ảnh vừa không khớp về mặt không gian bố cục, lại vừa không hợp lý về mặt chi tiết, chẳng hạn như những ngôi nhà mái hiên méo mó lệch lạc, rồi từng khối nhà không nối với nhau một cách hợp lý. Riêng cái này hoàn toàn có thể chỉnh sửa kỹ lưỡng bằng công cụ Inpainting, đến khi nào tạo ra sản phẩm hợp lý và ưng mắt thì sử dụng. Stable Diffusion có thể làm tốt hơn thế này rất nhiều, với điều kiện người dùng kiểm soát tốt quy trình workflow tạo sinh hình ảnh và video.

Desktop Screenshot 2024.07.07 - 19.23.58.28.jpg

Desktop Screenshot 2024.07.07 - 19.23.58.28.jpg

Desktop Screenshot 2024.07.07 - 19.24.24.33.jpg

Thứ ba, là giới hạn của công nghệ AI tạo sinh video hiện giờ rất khó tạo ra những khung hình đồng nhất về cả không gian, chi tiết lẫn logic. Anh em cứ lên YouTube tìm kiếm từ khóa “AI MV”, kết quả có thể đẹp hơn những gì thể hiện trong MV của anh Bo, nhưng những vấn đề về chi tiết hình ảnh thì giống hệt nhau. Cái này có lẽ phải đợi công nghệ hoàn thiện hơn trong tương lai gần.

Còn ở thời điểm hiện tại, bỏ qua chất lượng hình ảnh của MV, mình phải cảm ơn anh Bo vì đã có một thử nghiệm vui vẻ, để mình có cơ hội chia sẻ về những kỹ thuật làm hình ảnh và video nhờ Stable Diffusion mà không phải ai cũng biết hoặc quan tâm.