ByteDance telah menginvestasikan besar-besaran untuk pengembangan AI, dengan proyeksi investasi mencapai 12 miliar dollar pada tahun 2025.
ByteDance dikenal sebagai perusahaan induk TikTok, baru-baru ini telah mengumumkan model AI bernama OmniHuman-1 Platform ini dapat mengubah foto tunggal menjadi video yang sangat realistis berdasarkan instruksi atau suara yang diberikan.
OmniHuman-1 dapat menghasilkan video yang sangat realistis dari foto tunggal, mencakup ekspresi wajah, gerakan tubuh, dan suara yang sesuai.
OmniHuman-1 adalah teknologi revolusioner yang menunjukkan kemajuan besar dalam generasi video AI. Dengan kemampuan animasi tubuh penuh dari satu gambar dan dukungan multidimensi, model ini membuka berbagai peluang kreatif untuk konten digital, dari avatar virtual hingga cerita animasi.
Platform ini menggunakan arsitektur skala besar berbasis difusi yang membantu dalam menghasilkan gerakan hidup yang realistis dari input minimal seperti foto statis, video referensi, atau suara.
Model ini telah dilatih menggunakan dataset sebesar 19.000 jam untuk menghasilkan momen bibir yang sempurna dan gerakan tangan yang ekspresif.
OmniHuman-1 menunjukkan performa yang signifikan lebih baik dibandingkan metode generasi video manusia berbasis audio yang ada, dengan mendukung input gambar berbagai rasio aspek, baik potret, tubuh setengah, maupun tubuh lengkap.
Platform ini memiliki potensi untuk berbagai aplikasi, termasuk pendidikan, hiburan virtual, dan penggunaan kreatif lainnya.
Beberapa contoh video yang dihasilkan oleh OmniHuman-1 telah menjadi viral di media sosial, termasuk video Taylor Swift bernyanyi, Einstein memberikan pidato, dan banyak lagi.
OmniHuman dapat mendukung berbagai gaya musik dan mengakomodasi berbagai pose tubuh dan bentuk nyanyian. Ia dapat menangani lagu-lagu bernada tinggi dan menampilkan berbagai gaya gerakan untuk berbagai jenis musik.
Meskipun teknologi ini menawarkan banyak potensi, ada juga tantangan dan pertimbangan terkait penggunaan teknologi deepfake, termasuk potensi penyalahgunaan untuk menyebarkan informasi palsu atau melakukan penipuan.
Berbeda dengan model deepfake sebelumnya yang hanya menganimasi wajah, OmniHuman-1 dapat menganimasi seluruh tubuh dari satu gambar. Ini mencakup gerakan kepala, tangan, dan tubuh yang menghasilkan video yang alami dan fluid.
OmniHuman mendukung kartun, objek buatan, hewan, dan pose yang menantang, memastikan karakteristik gerakan sesuai dengan fitur unik setiap gaya.
OmniHuman-1 tidak hanya terbatas pada gambar statis. Model ini mendukung berbagai jenis input seperti audio, video, dan teks untuk menghasilkan animasi yang lebih realistis.
Model ini dapat menyesuaikan berbagai rasio dan proporsi tubuh, sehingga hasilnya lebih alami dan sesuai dengan berbagai format media.
OmniHuman-1 dapat menghasilkan video animasi yang realistis dengan berbagai gaya visual dan audio, baik itu berita, lagu, atau cerita visual.
OmniHuman-1 menggunakan strategi pelatihan yang unik dengan menggabungkan berbagai dataset seperti teks, audio, dan gerakan untuk meningkatkan realisme gerakan.
Selain karakter manusia, OmniHuman-1 juga dapat menganimasi karakter non-human seperti hewan, karakter kartun, dan objek buatan.
Salah satu demo viral dari OmniHuman-1 menampilkan Albert Einstein yang berbicara, yang sangat memukau dengan tingkat realisme yang dihasilkan.
OmniHuman-1 belum dirilis secara publik, namun sampel klip telah menjadi viral di internet.
Meskipun masih dalam tahap pengembangan, OmniHuman-1 telah menunjukkan potensi besar untuk mengubah cara kita berinteraksi dengan media digital
ByteDance belum memberikan tanggal resmi peluncuran, tetapi mereka telah menunjukkan beberapa klip demo yang sangat realistis.(*)
Editor : Hendra Efison