Microsoft Research Asia memperkenalkan VASA-1, iaitu model kecerdasan buatan (AI) yang boleh menjana video deepfake sangat realistik seseorang yang sedang bercakap atau bernyanyi dengan hanya menggunakan satu gambar statik dan klip audio pendek. Bukan sahaja pergerakkan mulut boleh diselarikan dengan audio, malahan ekspresi muka juga boleh diada-adakan untuk nampak lebih semula jadi.
Dalam salah satu video demo, menunjukkan cara model AI itu menghidupkan Mona Lisa untuk menyampaikan rap komedi lagu ‘Paparazzi’ oleh pelakon Anne Hathaway.
Video animasi VASA-1
VASA atau Visual Affective Skills Animator menggunakan pembelajaran mesin untuk menganalisis imej statik daripada wajah yang realistik, kartun ataupun karya seni dengan klip audio. Ia kemudiannya menjana video realistik dengan mimik muka yang tepat, penyelarasan bibir serta pergerakan wajah dan kepala yang semula jadi.
Model AI itu berupaya menghasilkan video bersaiz 512×512 piksel pada kadar 45fps dan boleh disiapkan dalam masa lebih kurang 2 minit menggunakan GPU Nvidia RTX 4090.
VASA-1 juga boleh menghasilkan video di mana subjek sedang melihat ke arah tertentu, memasukkan arah pandangan mata, jarak kepala dan juga emosi sebagai input untuk menghasilkan video.
Buat masa ini, VASA-1 hanyalah untuk demonstrasi penyelidikan dan belum tersedia kepada pengguna selain pasukan Penyelidikan Microsoft. Pihak Microsoft juga tiada rancangan untuk mengeluarkan produk itu kepada umum sehingga mereka yakin teknologi tersebut akan digunakan secara bertanggungjawab dan mengikut peraturan sewajarnya.
Dengan hanya gambar potret, memang hebatlah sebab dapat hasilkan video bercakap. Malah kalau sekali tengok, memang takkan terfikir ia adalah animasi janaan AI.
[Sumber: Microsoft]