Alibaba Group, fotoğrafları videoya dönüştürüp seslendirebilen yapay zekâ aracı EMO’yu tanıttı

Çin merkezli teknoloji şirketi Alibaba Group, fotoğrafları videoya dönüştürüp seslendirebilen yapay zekâ aracı EMO’yu tanıttı

Yapay zekâ teknolojisi her geçen gün yeni bir özellikle gelişmeye devam ediyor. Bu alandaki en son gelişme EMO tek bir referans görselle video oluşturabiliyor. 

Video oluşumunu sağlayan birçok yapay zekâ modeli mevcut. Bunlardan en dikkat çekeni OpenAI'nin 15 Şubat'ta duyurduğu Sora metinden video oluşturulmasını sağlarken EMO referans bir görseli eklenen sesle birleştirerek video oluşturuyor. EMO'yla oluşturulan videoda insan hareketlerinin ve mimiklerin gerçekçiliği en çok öne çıkan özelliklerinden biri. EMO'yla oluşturulan videolardaki ağız hareketleri de eklenen sesle uygun olarak değişiyor.

EMO'nun bir başka önemli özelliği ise ses kaynağındaki tempoyu algılayabilmesi. Yavaşça okunan bir metinle hızla söylenen birkaç kelime grubu arasındaki farkı profesyonelce değerlendirerek görüntüyü buna göre oluşturuyor. Bununla birlikte referans eklediğiniz görsel gerçek bir kişi olmak zorunda da değil. EMO kurgusal karakterleri de konuşturmayı olağan kılıyor.

Çalışma yöntemi

Yapay zekâ modeli iki kısımdan oluşuyor. İlk kısım referans görselden hareketli videolar oluştururken ikinci kısım ses dosyasını inceleyerek önemli kısımları tespit ediyor. En sonunda tespit edilen ses dosyası videoyla birleşiyor. Bununla birlikte yapay zekânın iki adet de kontrol merkezi mevcut. Bunlardan biri görseldeki resmin olabildiğince aynı kaldığını denetlerken diğeri sesle ilgili kısmı kontrol ediyor. 

Kariyer
Sosyal Medyayı Kadınlar mı, Erkekler mi Daha Etkin Kullanıyor?

Geçtiğimiz günlerde onuncu yılını tamamlayan Facebook’un  bugün 1,23 milyar aylık aktif kullanıcısı mevcut. Dünya çapında 37 ofis ve 6 binden fazla da [...]

Bunlar İlginizi Çekebilir