Alibaba Cloud Membuka Akses Open-Source untuk Model AI Penghasil Konten Video

Reporter: Danielisa Putriadita | Editor: Danielisa Putriadita

MOMSMONEY.ID - Alibaba Cloud mengumumkan, telah membuka akses open-source untuk model kecerdasan buatan (AI) penghasil konten video (video generator) sebagai bagian dari upaya terbaru dalam mendukung komunitas open-source.

Mengutip keterangan resmi Alibaba Cloud, Rabu (26/2), perusahaan cloud ini membuka akses terhadap empat model dari seri Wan2.1, versi terbaru dari model dasar video Tongyi Wanxiang (Wan), dengan 14 miliar(B) dan 1,3 miliar(B) parameter.

Keempat model tersebut, yaitu T2V-14B, T2V-1.3B, I2V-14B-720P, dan I2V-14B-480P, dirancang untuk menghasilkan gambar dan konten video berkualitas tinggi dari input teks maupun gambar.

Model-model ini dapat diunduh melalui komunitas model AI Alibaba Cloud, Model Scope, serta platform kolaboratif AI Hugging Face, dan dapat diakses oleh para akademisi, peneliti, serta institusi komersial secara global.

Diluncurkan awal tahun ini, seri Wan2.1 menjadi model penghasil konten video pertama yang mendukung efek teks dalam bahasa Mandarin dan Inggris.

Model ini unggul dalam menghasilkan visual yang realistis dengan menangani gerakan kompleks secara akurat, meningkatkan ketajaman pixel, mengikuti prinsip fisika, sehingga meningkatkan kewajaran gerakan, serta mengoptimalkan ketepatan dalam mengeksekusi instruksi.

Akurasi tinggi dalam menjalankan instruksi menjadikan Wan2.1 menempati posisi teratas dalam VBench leaderboard, yang merupakan rangkaian tolok ukur komprehensif untuk model pembuat konten video.

Selain itu, Wan2.1 adalah satu-satunya model generasi video open-source yang masuk dalam lima besar VBench leaderboard di Hugging Face.

Berdasarkan VBench, seri Wan2.1 mencatat skor keseluruhan sebesar 86,22%, dengan keunggulan dalam dimensi utama seperti dinamika gerakan, hubungan spasial, warna, serta interaksi multi-objek.

Melatih model dasar video memerlukan sumber daya komputasi yang sangat besar serta data pelatihan berkualitas tinggi dalam jumlah masif.

Akses terbuka memungkinkan lebih banyak bisnis memanfaatkan AI untuk menciptakan konten visual berkualitas tinggi yang bisa disesuaikan dengan kebutuhan dengan biaya yang lebih hemat.

Model T2V-14B lebih cocok untuk menghasilkan visual berkualitas tinggi dengan dinamika gerakan yang dinamis, sementara T2V-1.3B menawarkan keseimbangan antara kualitas hasil dan efisiensi daya komputasi.

Sehingga, ideal bagi developer yang ingin melakukan pengembangan lanjutan serta penelitian akademis. Sebagai contoh, model T2V-1.3B memungkinkan pengguna dengan laptop standar untuk membuat video berdurasi 5 detik dengan resolusi 480p dalam waktu sekitar 4 menit.

Selain mendukung pembuatan video dari teks (text-to-video), model I2V-14B-720P dan I2V-14B-480P juga menyediakan fitur konversi gambar ke video (image-to-video).

Pengguna cukup memasukkan satu gambar beserta deskripsi teks singkat untuk menghasilkan konten video yang dinamis. Platform ini juga mendukung input gambar dengan dimensi beragam.

Alibaba Cloud Membuka Akses Open-Source untuk Model AI Penghasil Konten Video

Alibaba Cloud menjadi salah satu perusahaan teknologi global pertama yang membuka akses open-source untuk model AI berskala besar yang dikembangkannya sendiri.

Perusahaan ini pertama kali merilis model open-source Qwen (Qwen-7B) pada Agustus 2023. Model-model Qwen secara konsisten menduduki peringkat teratas dalam Hugging Face Open LLM Leaderboards, dengan performa yang sebanding dengan model AI global terkemuka dalam berbagai tolok ukur.

Hingga saat ini, lebih dari 100.000 model turunan grup model Qwen telah dikembangkan di Hugging Face, menjadikannya salah satu ekosistem model AI terbesar di dunia.

Cek Berita dan Artikel yang lain di Google News