Google yapay zeka araştırmacıları, tek bir hareketsiz imgeden insanların görüntü imajlarını oluşturmanın bir yolunu buldu. Bu sayede, girilen bir metinden konuşan birinin görüntüsünü oluşturmak ya da bir kişinin ağız hareketlerini değiştirerek farklı bir lisandaki ses kesimini özgününde konuşulanla eşleştirmek üzere şeyler yapılabiliyor.
Makaleyi yayınlayan Google araştırmacıları bu teknolojiye Vlogger diyor. Araştırmacılar, yapay zekanın bir insanın tek bir girdi imajını nasıl aldığını ve bir ses evrakı ile eşleştirmeleri için hem yüz hem de beden hareketlerini nasıl ürettiğini gösteren çeşitli örnekler sunuyor.
Bu, teknolojinin kullanılabileceği birkaç potansiyel alandan yalnızca biri. Bir başkası ise görüntü düzenlemek, bilhassa de bir görüntü öznesinin yüz tabirlerini düzenlemek. Diğer bir örnekte araştırmacılar, birebir klibin çeşitli versiyonlarını da gösteriyor. Bunların birinde kameraya konuşan bir sunucu varken, bir başkasında sunucunun ağzı büsbütün kapalı ve diğer bir görüntüde ise gözleri kapalı. Bununla birlikte en kullanışlı özelliklerden biri, yabancı lisanda dublajlı bir görüntü için ses kesimini değiştirebilmesi ve kişinin yüz hareketlerini ses modülüne nazaran dudak senkronizasyonu sağlaması.
- Star Işığı Portresi Özelliğine Sahip vivo V30 Ön Satışa Çıkıyor
Teknoloji 2 evre kullanılarak çalışıyor: stokastik bir beşerden 3 boyutlu harekete difüzyon modeli ve metinden manzaraya modelleri hem zamansal hem de uzamsal denetimlerle güçlendiren yeni bir difüzyon tabanlı mimari. GitHub sayfasına nazaran bu yaklaşım, insan yüzlerinin ve bedenlerinin üst seviye temsilleri aracılığıyla kolay kolay denetim edilebilen değişken uzunlukta yüksek kaliteli görüntülerin oluşturulmasını sağlıyor.
2. Generation of Moving and Talking People
Here's an example on talking face generation given just a single input image and a driving audio. pic.twitter.com/hd7HKDfYkP
— EyeingAI (@EyeingAI) March 18, 2024
Elbette, teknoloji harika değil. Vlogger’ın bu görüntüleri yapay zeka kullanarak oluşturduğuna dair hala kimi emareler var. Birtakım örneklerde, ağız hareketleri çok doğal değil, bu da görüntüyü oluşturmak için yapay zeka kullanıldığını ele veriyor. Muhtemelen vakit geçtikçe ve Google modele daha fazla malzeme ekledikçe daha da uygun bir hal alacak.