قراره سورا ۲ بیاد ولی باید حسابی غوغا کنه تا از Veo 3 گوگل جلو بزنه!

خب رفیق، خبر داغ اینه که OpenAI (اونی که ChatGPT رو ساخته) داره ورژن دوم مدل ویدیوی هوش مصنوعی‌ش به اسم سورا ۲ رو میاره! سورا یه مدل text-to-videoـه، یعنی تو یه متن می‌نویسی و اون طبق همون متن برات ویدیو می‌سازه؛ مثل جادو، ولی هوشمند! (text-to-video یعنی متنی بهش می‌دی، خودش تبدیلش می‌کنه به ویدئو).

اما داستان اینجاست، سورا ۲ قراره با Veo 3 گوگل رقابت کنه؛ Veo 3 هم درست همین کار رو انجام می‌ده و اصلاً کم زور نیست! برعکس، خیلیام می‌گن امکانات Veo 3 حتی الانم یه سر و گردن بالاتره. مثلاً Veo 3 تونسته توی ویدیوهاش صدا و حتی صحبت و افکت‌های محیطی رو جا بده! مثل این که توی یه کلیپ، صدای ریختن قهوه، تق تق فنجون، یا همهمۀ یه کافه واقعی رو هم می‌شنوی. یعنی فقط یه فیلم صامت نمی‌بینی؛ واقعاً حس می‌کنی تو صحنه‌ای که ساختی حضور داری!

حالا اینجاست که OpenAI باید واسه جذاب‌کردن سورا ۲ علاوه بر تصویری که درست می‌کنه، کار رو برای اضافه کردن صدا، افکت صوتی و حتی صدای محیط (مثلا صدای بارون یا جمعیت) حسابی ارتقا بده. اضافه‌کردن صدا به ویدیوهای AI کار راحتی نیست، مخصوصاً هماهنگی لب با صدا (Lip-sync یعنی دقیقاً حرف زدن رو طوری نشون بده که انگار صدا از دهن شخصیت بیرون میاد). Veo 3 این کار رو تا حد خوبی انجام داده ولی همچنان بی‌نقص نیست؛ مثلاً بعضی وقتا موزیک پس‌زمینه با حال و هوای ویدیو هماهنگ در میاد، یا افکت‌ها دقیق سر جای خودش قرار می‌گیرن.

اما یکی دیگه از برتری‌های سورا اینه که می‌تونه تا ۲۰ ثانیه یا بیشتر ویدیوهای با کیفیت تولید کنه؛ در حالی که Veo 3 فعلاً ویدیوهاش رو تا سقف ۸ ثانیه می‌سازه. اگه سورا ۲ بتونه تا ۳۰ ثانیه یا حتی بیشتر ویدیو درست کنه، احتمالاً دل خیلیا رو می‌بره؛ چون فضای بیشتری برای خلاقیت و داستان‌گویی داری.

نکته بامزه دیگه اینه که سورا داخل خود ChatGPT در دسترس میشه و می‌تونی توی یه پروژه بزرگتر هم ازش استفاده کنی. این انعطاف به سورا حسابی امتیاز می‌ده؛ ولی بازم اون نبود صدا واقعاً احساس میشه… یعنی شاید بتونی فیلم خفن درست کنی، اما اگه صداهاش با تصاویر خوب هماهنگ نباشه، یه چیزی کم خواهد بود.

البته هر چی این هوش مصنوعیا حرفه‌ای‌تر بشن، نگرانی درباره مرز واقعیت و فیک بودن هم بیشتر میشه. الان هر دو مدل یعنی سورا و Veo 3 اجازه نمی‌دن کاربرها برای ساخت ویدیو از افراد مشهور، خشونت یا محتوای کپی‌رایت شده استفاده کنن. (کپی‌رایت یعنی چیزی که مال یه نفر یا شرکت دیگه است و بدون اجازه نمیشه ازش استفاده کرد). ولی وقتی صدا اضافه بشه، سؤال جدیدی پیش میاد: آیا مثلاً صداهای ساخته شده هم واقعی به نظر میان؟ منبع این صداها کیه و چطور می‌تونیم مطمئن بشیم دور از سواستفاده‌ست؟

بعدش، قضیه قیمت هم خیلی مهم میشه! الان Veo 3 فقط با یه اشتراک خیلی گرون‌قیمت (ماهانه ۲۵۰ دلار تو سرویس AI Ultra گوگل Gemini Advanced) قابل استفاد‌ست. یعنی اگه بخوای مرتب باهاش کار کنی باید دست توی جیب ببری. حالا اگه OpenAI هم سورا ۲ رو برای پلن‌های Plus یا Pro چت‌جی‌پی‌تی بذاره – یا حتی اگه دسترسی واسه پلن‌های ارزونتر ایجاد کنه – احتمالاً کلی ملت رو سمت خودش می‌کشه. واسه خیلیا چیزی که مهمه اینه: قیمت مناسب باشه و کار کردنش راحت!

خلاصه سورا ۲ اگه بتونه هم صدای خفن تولید کنه، هم کیفیت ویدیو رو حفظ کنه، هم قیمتش رو منطقی نگه داره و استفاده‌اش آسون باشه، شاید واقعاً بتونه جدی‌تر از همیشه توی رقابت با Veo 3 غوغا کنه. معلوم نیست دقیقاً کی لانچ میشه — فقط یه سری نشونه‌ها تو سرورهای OpenAI هست که داره نزدیک میشه.

پس فعلاً منتظر بمونیم ببینیم این مسابقه جذاب تکست به ویدیو به کجا می‌کشه!

راستی، شاید بخوای بدونی که Midjourney (اونی که به خاطر تصویرسازیش معروف شده) هم تازه اولین مدل ویدیوی خودشو معرفی کرده… ظاهراً این مدلای AI دارن واقعاً دنیا رو متحول می‌کنن! 😄

منبع: +