Generator Text-to-Video Bakal Menjadi Fokus Perhatian Dalam Pengembangan Teknologi AI

Technologue.id, Jakarta - Dengan kemunculan chatbot dan generator teks-ke-gambar yang semakin mengambil alih internet, tampaknya perbatasan AI berikutnya mungkin adalah generator text-to-video.

Perusahaan teknologi Nvidia baru-baru ini menerbitkan makalah penelitian yang menarik perhatian, yang berjudul "Sintesis Video Resolusi Tinggi dengan Model Difusi Laten".

Makalah ini berisi eksperimen mereka di Lab AI Toronto yang menjelaskan bagaimana teknologi difusi stabil dapat digunakan untuk menciptakan alat yang dapat menghasilkan seni gerak dari petunjuk teks.

Alat ini disebut Model Difusi Laten (LDM) dan dapat menghasilkan klip video tanpa perlu melakukan pemrosesan komputer dalam jumlah besar.

TechRadar melaporkan bahwa LDM ini dapat membuat gambar bergerak bergaya GIF dengan durasi video sekitar 4,7 detik pada resolusi 1.280 x 2.048.

Selain itu, LDM juga dapat menghasilkan video lebih lama dengan resolusi yang lebih rendah, yaitu 512 x 1.024. Meskipun demikian, hasil yang dihasilkan masih memiliki artefak acak dan corengan di GIF, seperti halnya pada alat AI lain seperti Midjourney.

TechRadar mengatakan bahwa alat tersebut kemungkinan ideal sebagai generator teks-ke-GIF pada saat ini.

Publikasi tersebut mencatat bahwa alat tersebut dapat dengan mudah menangani petunjuk sederhana seperti penyedot debu stormtrooper di pantai atau boneka beruang sedang memainkan gitar listrik, definisi tinggi, 4K.

Namun, masih membutuhkan sedikit pengembangan lebih lanjut sebelum mencapai jam tayang utama.

Tampaknya Nvidia bukan satu-satunya perusahaan yang mengeksplorasi generator teks-ke-video AI. Google juga memperkenalkan generator Phenaki-nya, yang dapat menghasilkan klip video sepanjang 20 detik.

Startup bernama Runway juga mengumumkan model video generasi keduanya bulan lalu, yang juga didasarkan pada Difusi Stabil. Mereka menunjukkan demo prompt matahari sore yang mengintip melalui jendela loteng New York City, menunjukkan bagaimana efek bergerak dapat ditambahkan ke gambar diam.

Selain itu, pengguna juga dapat memanfaatkan keuntungan dari penambahan AI di program-program seperti Adobe Firefly dan Adobe Premiere Rush, menurut TechRadar.

Meskipun ada beberapa perusahaan lain seperti Narakeet dan Lume5 yang memasarkan diri mereka sebagai pembuat teks-ke-video, alat ini bekerja lebih seperti presentasi PowerPoint, menggabungkan teks, audio, gambar, dan mungkin beberapa klip video yang sudah diproduksi dengan petunjuk, sebagai lawan dari menghasilkan karya unik.

Dengan generator text-to-video AI yang semakin berkembang, kita bisa melihat peningkatan dalam pembuatan konten video berkualitas tinggi di masa depan.

Contact Information