دیپ‌مایند نسل جدید تولید ویدیو با هوش مصنوعی Veo 2 را معرفی می‌کند

گوگل دیپ‌مایند از هوش مصنوعی Veo 2 برای تولید ویدیو رونمایی کرده است. این فناوری پیشرفته در زمینه تولید ویدیوهای باکیفیت، از نظر رزولوشن و طول مدت، رقیبی جدی برای Soraی OpenAI محسوب می‌شود. Veo 2 که هنوز در مرحله آزمایشی قرار دارد، توانسته با تولید ویدیوهای واقعی و انعطاف‌پذیر توجه‌ها را جلب کند. البته چالش‌هایی مانند پایداری و اصلاح جزئیات همچنان مطرح هستند.

گوگل دیپ‌مایند با Veo 2 خلق ویدیو با هوش مصنوعی را متحول می‌کند

گوگل دیپ‌مایند، مرکز تحقیقات هوش مصنوعی گوگل، از Veo 2 پرده برداشته است. Veo 2 نسخه‌ی تکامل‌یافته‌ی مدل هوش مصنوعی تولید ویدیوی قبلی، یعنی Veo، است. این مدل برای ایجاد استانداردهای جدید در ویدیوهای تولید شده با هوش مصنوعی طراحی شده. Veo 2 پیشرفت‌های قابل توجهی در رزولوشن، واقع‌گرایی و کنترل خلاقانه ارائه می‌دهد. این مدل هنوز در مرحله‌ی آزمایش است. اما گامی جسورانه در رقابت هوش مصنوعی مولد محسوب می‌شود. به خصوص به این دلیل که Soraی OpenAI را به چالش می‌کشد.

جهشی بزرگ در رزولوشن و مدت زمان

Veo 2 می‌تواند ویدیوهای دو دقیقه‌ای با رزولوشن خیره‌کننده‌ی 4K (4096 x 2160 پیکسل) تولید کند. این یک جهش بزرگ نسبت به مدل‌های قبلی و رقیب خود است. Soraی OpenAI در حال حاضر ویدیوهای ۲۰ ثانیه‌ای با حداکثر رزولوشن 1080p ارائه می‌دهد. البته این قابلیت‌های Veo 2 در حال حاضر تئوری هستند. چرا که ادغام آن در ابزار آزمایشی VideoFX گوگل، خروجی را به 720p و هشت ثانیه محدود می‌کند. با وجود این محدودیت، گوگل قصد دارد دسترسی به VideoFX را گسترش دهد. همچنین قرار است Veo 2 را از طریق پلتفرم توسعه‌دهندگان Vertex AI خود در دسترس قرار دهد.

الی کالینز، معاون محصول در دیپ‌مایند، تاکید کرد که بازخورد کاربران، تکرارهای مداوم را شکل خواهد داد. او به ادغام گسترده‌تر و به‌روزرسانی‌های سال آینده اشاره کرد. او گفت: «در ماه‌های آینده، ما به اصلاح مدل ادامه می‌دهیم و موارد استفاده‌ی قانع‌کننده را در سراسر اکوسیستم گوگل بررسی خواهیم کرد».

واقع‌گرایی و کنترل خلاقانه‌ی پیشرفته

یکی از ویژگی‌های برجسته‌ی Veo 2، توانایی آن در تولید ویدیو از دستورات متنی است. همچنین می‌تواند از ترکیب متن و تصاویر مرجع برای تولید ویدیو استفاده کند. برای مثال، کاربران می‌توانند بنویسند «یک ماشین در حال مسابقه در بزرگراه». سپس یک کلیپ کوتاه مطابق با این توضیحات دریافت می‌کنند. Veo 2 نسبت به مدل قبلی خود پیشرفت‌های قابل توجهی دارد:

بافت‌های واضح‌تر و صحنه‌های پیچیده‌تر: این مدل فیلم‌های واضح‌تری ارائه می‌دهد. به خصوص در صحنه‌های پویا با بافت‌های پیچیده.
دینامیک فیزیک و حرکت بهبود یافته: Veo 2 درک بهتری از دینامیک سیالات (مثل حرکات مایع) و خواص نور طبیعی، از جمله سایه‌ها و بازتاب‌ها، دارد.
کنترل‌های پیشرفته‌ی دوربین: کاربران می‌توانند «دوربین» مجازی را در ویدیوهای تولید شده با دقت بیشتری قرار دهند و حرکت دهند. این امکان ایجاد جلوه‌های سینمایی و زوایای پویا را فراهم می‌کند.
حالات ظریف انسانی: هوش مصنوعی حالات چهره را بهتر مدیریت می‌کند و واقع‌گرایی بیشتری به شخصیت‌ها می‌بخشد.

دیپ‌مایند چند کلیپ نمونه ارائه داد که این پیشرفت‌ها را نشان می‌داد. برای مثال، این مدل تصاویر پیچیده‌ای مانند نور شکست خورده از طریق مایعات و انیمیشن‌های Pixar-مانند را به طرز ماهرانه‌ای ایجاد کرد. با این حال، چالش‌ها همچنان وجود دارند. بعضی از ویدیوها عناصر عجیبی داشتند. مانند چشمان بی‌جان شخصیت یا ترکیب غیرطبیعی اشیاء. این نشان می‌دهد که تکنولوژی هنوز برای تقلید کامل از واقعیت با مشکل مواجه است.

کالینز این محدودیت‌ها را تایید کرد. او اشاره کرد که پایداری شخصیت، جزئیات پیچیده و سکانس‌های حرکتی سریع یا پیچیده نیاز به اصلاح بیشتری دارند. با وجود این موانع، دیپ‌مایند با افراد خلاق برای تنظیم دقیق مدل همکاری می‌کند. هنرمندانی مانند دونالد گلاور و The Weeknd برای هماهنگی فناوری با نیازهای خلاقانه‌ی دنیای واقعی، نظرات خود را ارائه داده‌اند.

ملاحظات اخلاقی و اقدامات ایمنی

مانند هر مدل هوش مصنوعی مولد، نگرانی‌های اخلاقی در مورد استفاده از داده‌ها و سوءاستفاده‌ی احتمالی وجود دارد. Veo 2 با حجم عظیمی از داده‌های ویدیویی آموزش داده شده است. البته دیپ‌مایند منابع خاصی را فاش نکرده است. یوتیوب، متعلق به گوگل، یک نامزد احتمالی است. دیپ‌مایند ابزارهایی برای جلوگیری از جمع‌آوری داده‌ها برای آموزش‌های آینده ارائه می‌دهد. اما به سازندگان اجازه نمی‌دهد محتوای خود را از مجموعه داده‌های موجود حذف کنند. این موضوع در بحث‌های مربوط به استفاده‌ی منصفانه و حق چاپ، بحث‌برانگیز است.

این مدل همچنین با خطراتی مانند «بازگشت» مواجه است. یعنی ناخواسته داده‌های آموزشی را عیناً بازتولید می‌کند. برای کاهش این مشکل، دیپ‌مایند از فیلترهایی برای غربالگری محتوای نامناسب یا خشونت‌آمیز استفاده می‌کند. همچنین، این شرکت از فناوری واترمارک SynthID استفاده می‌کند. SynthID نشانگرهای نامرئی را در ویدیوهای تولید شده جاسازی می‌کند تا با دیپ فیک مبارزه کند. با این حال، SynthID مانند همه‌ی راه حل‌های واترمارک، در برابر دستکاری مصون نیست.

کالینز بر تعهد دیپ‌مایند به رعایت اصول اخلاقی و همکاری با جامعه‌ی خلاق تأکید کرد. او گفت: «ما تلاش می‌کنیم تا با سازندگان و شرکا برای دستیابی به اهداف مشترک همکاری کنیم». او بر تعامل مداوم با هنرمندان و ذینفعان صنعت برای رسیدگی به نگرانی‌ها و جمع‌آوری بازخورد تأکید کرد.

گسترش اکوسیستم: ارتقای Imagen 3

دیپ‌مایند در کنار Veo 2، از به‌روزرسانی‌های Imagen 3، مدل تولید تصویر تجاری خود، هم خبر داد. این به‌روزرسانی قابلیت‌های ابزار ImageFX گوگل را بهبود می‌بخشد. کاربران می‌توانند تصاویر زنده‌تر و با جزئیات بیشتر در سبک‌هایی از واقع‌گرایی عکس گرفته تا انیمه ایجاد کنند. رابط کاربری جدید با ارائه کلمات کلیدی و توصیف‌کننده‌های پیشنهادی به کاربران، دسترسی را افزایش می‌دهد.

چشم‌انداز آینده

Veo 2 نقطه‌ی عطفی در خلق محتوای مبتنی بر هوش مصنوعی است. اما پیچیدگی‌های ایجاد تعادل بین نوآوری و ملاحظات اخلاقی را هم برجسته می‌کند. این مدل نوید می‌دهد که امکانات جدیدی را برای فیلمسازان، انیماتورها و سازندگان محتوا ایجاد کند. همچنین رهبران صنعت مانند OpenAI را به چالش می‌کشد. با این حال، همانطور که کالینز گفت، دستیابی به انسجام و واقع‌گرایی واقعی همچنان یک کار در حال پیشرفت است.

دیپ‌مایند با ادامه‌ی اصلاح مدل‌های خود و پرداختن به نگرانی‌های اخلاقی، خود را در خط مقدم نوآوری هوش مصنوعی مولد قرار می‌دهد. اینکه آیا Veo 2 در نهایت چشم‌انداز خلاقانه را تغییر می‌دهد، به توانایی آن در غلبه بر محدودیت‌های فنی و مدیریت پیامدهای گسترده‌ی هوش مصنوعی در رسانه بستگی دارد.

اگر به خواندن کامل این مطلب علاقه‌مندید، روی لینک مقابل کلیک کنید: techcrunch