گوگل دیپمایند از هوش مصنوعی Veo 2 برای تولید ویدیو رونمایی کرده است. این فناوری پیشرفته در زمینه تولید ویدیوهای باکیفیت، از نظر رزولوشن و طول مدت، رقیبی جدی برای Soraی OpenAI محسوب میشود. Veo 2 که هنوز در مرحله آزمایشی قرار دارد، توانسته با تولید ویدیوهای واقعی و انعطافپذیر توجهها را جلب کند. البته چالشهایی مانند پایداری و اصلاح جزئیات همچنان مطرح هستند.
گوگل دیپمایند با Veo 2 خلق ویدیو با هوش مصنوعی را متحول میکند
گوگل دیپمایند، مرکز تحقیقات هوش مصنوعی گوگل، از Veo 2 پرده برداشته است. Veo 2 نسخهی تکاملیافتهی مدل هوش مصنوعی تولید ویدیوی قبلی، یعنی Veo، است. این مدل برای ایجاد استانداردهای جدید در ویدیوهای تولید شده با هوش مصنوعی طراحی شده. Veo 2 پیشرفتهای قابل توجهی در رزولوشن، واقعگرایی و کنترل خلاقانه ارائه میدهد. این مدل هنوز در مرحلهی آزمایش است. اما گامی جسورانه در رقابت هوش مصنوعی مولد محسوب میشود. به خصوص به این دلیل که Soraی OpenAI را به چالش میکشد.
جهشی بزرگ در رزولوشن و مدت زمان
Veo 2 میتواند ویدیوهای دو دقیقهای با رزولوشن خیرهکنندهی 4K (4096 x 2160 پیکسل) تولید کند. این یک جهش بزرگ نسبت به مدلهای قبلی و رقیب خود است. Soraی OpenAI در حال حاضر ویدیوهای ۲۰ ثانیهای با حداکثر رزولوشن 1080p ارائه میدهد. البته این قابلیتهای Veo 2 در حال حاضر تئوری هستند. چرا که ادغام آن در ابزار آزمایشی VideoFX گوگل، خروجی را به 720p و هشت ثانیه محدود میکند. با وجود این محدودیت، گوگل قصد دارد دسترسی به VideoFX را گسترش دهد. همچنین قرار است Veo 2 را از طریق پلتفرم توسعهدهندگان Vertex AI خود در دسترس قرار دهد.
الی کالینز، معاون محصول در دیپمایند، تاکید کرد که بازخورد کاربران، تکرارهای مداوم را شکل خواهد داد. او به ادغام گستردهتر و بهروزرسانیهای سال آینده اشاره کرد. او گفت: «در ماههای آینده، ما به اصلاح مدل ادامه میدهیم و موارد استفادهی قانعکننده را در سراسر اکوسیستم گوگل بررسی خواهیم کرد».
واقعگرایی و کنترل خلاقانهی پیشرفته
یکی از ویژگیهای برجستهی Veo 2، توانایی آن در تولید ویدیو از دستورات متنی است. همچنین میتواند از ترکیب متن و تصاویر مرجع برای تولید ویدیو استفاده کند. برای مثال، کاربران میتوانند بنویسند «یک ماشین در حال مسابقه در بزرگراه». سپس یک کلیپ کوتاه مطابق با این توضیحات دریافت میکنند. Veo 2 نسبت به مدل قبلی خود پیشرفتهای قابل توجهی دارد:
- بافتهای واضحتر و صحنههای پیچیدهتر: این مدل فیلمهای واضحتری ارائه میدهد. به خصوص در صحنههای پویا با بافتهای پیچیده.
- دینامیک فیزیک و حرکت بهبود یافته: Veo 2 درک بهتری از دینامیک سیالات (مثل حرکات مایع) و خواص نور طبیعی، از جمله سایهها و بازتابها، دارد.
- کنترلهای پیشرفتهی دوربین: کاربران میتوانند «دوربین» مجازی را در ویدیوهای تولید شده با دقت بیشتری قرار دهند و حرکت دهند. این امکان ایجاد جلوههای سینمایی و زوایای پویا را فراهم میکند.
- حالات ظریف انسانی: هوش مصنوعی حالات چهره را بهتر مدیریت میکند و واقعگرایی بیشتری به شخصیتها میبخشد.
دیپمایند چند کلیپ نمونه ارائه داد که این پیشرفتها را نشان میداد. برای مثال، این مدل تصاویر پیچیدهای مانند نور شکست خورده از طریق مایعات و انیمیشنهای Pixar-مانند را به طرز ماهرانهای ایجاد کرد. با این حال، چالشها همچنان وجود دارند. بعضی از ویدیوها عناصر عجیبی داشتند. مانند چشمان بیجان شخصیت یا ترکیب غیرطبیعی اشیاء. این نشان میدهد که تکنولوژی هنوز برای تقلید کامل از واقعیت با مشکل مواجه است.
کالینز این محدودیتها را تایید کرد. او اشاره کرد که پایداری شخصیت، جزئیات پیچیده و سکانسهای حرکتی سریع یا پیچیده نیاز به اصلاح بیشتری دارند. با وجود این موانع، دیپمایند با افراد خلاق برای تنظیم دقیق مدل همکاری میکند. هنرمندانی مانند دونالد گلاور و The Weeknd برای هماهنگی فناوری با نیازهای خلاقانهی دنیای واقعی، نظرات خود را ارائه دادهاند.
ملاحظات اخلاقی و اقدامات ایمنی
مانند هر مدل هوش مصنوعی مولد، نگرانیهای اخلاقی در مورد استفاده از دادهها و سوءاستفادهی احتمالی وجود دارد. Veo 2 با حجم عظیمی از دادههای ویدیویی آموزش داده شده است. البته دیپمایند منابع خاصی را فاش نکرده است. یوتیوب، متعلق به گوگل، یک نامزد احتمالی است. دیپمایند ابزارهایی برای جلوگیری از جمعآوری دادهها برای آموزشهای آینده ارائه میدهد. اما به سازندگان اجازه نمیدهد محتوای خود را از مجموعه دادههای موجود حذف کنند. این موضوع در بحثهای مربوط به استفادهی منصفانه و حق چاپ، بحثبرانگیز است.
این مدل همچنین با خطراتی مانند «بازگشت» مواجه است. یعنی ناخواسته دادههای آموزشی را عیناً بازتولید میکند. برای کاهش این مشکل، دیپمایند از فیلترهایی برای غربالگری محتوای نامناسب یا خشونتآمیز استفاده میکند. همچنین، این شرکت از فناوری واترمارک SynthID استفاده میکند. SynthID نشانگرهای نامرئی را در ویدیوهای تولید شده جاسازی میکند تا با دیپ فیک مبارزه کند. با این حال، SynthID مانند همهی راه حلهای واترمارک، در برابر دستکاری مصون نیست.
کالینز بر تعهد دیپمایند به رعایت اصول اخلاقی و همکاری با جامعهی خلاق تأکید کرد. او گفت: «ما تلاش میکنیم تا با سازندگان و شرکا برای دستیابی به اهداف مشترک همکاری کنیم». او بر تعامل مداوم با هنرمندان و ذینفعان صنعت برای رسیدگی به نگرانیها و جمعآوری بازخورد تأکید کرد.
گسترش اکوسیستم: ارتقای Imagen 3
دیپمایند در کنار Veo 2، از بهروزرسانیهای Imagen 3، مدل تولید تصویر تجاری خود، هم خبر داد. این بهروزرسانی قابلیتهای ابزار ImageFX گوگل را بهبود میبخشد. کاربران میتوانند تصاویر زندهتر و با جزئیات بیشتر در سبکهایی از واقعگرایی عکس گرفته تا انیمه ایجاد کنند. رابط کاربری جدید با ارائه کلمات کلیدی و توصیفکنندههای پیشنهادی به کاربران، دسترسی را افزایش میدهد.
چشمانداز آینده
Veo 2 نقطهی عطفی در خلق محتوای مبتنی بر هوش مصنوعی است. اما پیچیدگیهای ایجاد تعادل بین نوآوری و ملاحظات اخلاقی را هم برجسته میکند. این مدل نوید میدهد که امکانات جدیدی را برای فیلمسازان، انیماتورها و سازندگان محتوا ایجاد کند. همچنین رهبران صنعت مانند OpenAI را به چالش میکشد. با این حال، همانطور که کالینز گفت، دستیابی به انسجام و واقعگرایی واقعی همچنان یک کار در حال پیشرفت است.
دیپمایند با ادامهی اصلاح مدلهای خود و پرداختن به نگرانیهای اخلاقی، خود را در خط مقدم نوآوری هوش مصنوعی مولد قرار میدهد. اینکه آیا Veo 2 در نهایت چشمانداز خلاقانه را تغییر میدهد، به توانایی آن در غلبه بر محدودیتهای فنی و مدیریت پیامدهای گستردهی هوش مصنوعی در رسانه بستگی دارد.
اگر به خواندن کامل این مطلب علاقهمندید، روی لینک مقابل کلیک کنید: techcrunch