خب رفیق، خبر داغ اینه که OpenAI (اونی که ChatGPT رو ساخته) داره ورژن دوم مدل ویدیوی هوش مصنوعیش به اسم سورا ۲ رو میاره! سورا یه مدل text-to-videoـه، یعنی تو یه متن مینویسی و اون طبق همون متن برات ویدیو میسازه؛ مثل جادو، ولی هوشمند! (text-to-video یعنی متنی بهش میدی، خودش تبدیلش میکنه به ویدئو).
اما داستان اینجاست، سورا ۲ قراره با Veo 3 گوگل رقابت کنه؛ Veo 3 هم درست همین کار رو انجام میده و اصلاً کم زور نیست! برعکس، خیلیام میگن امکانات Veo 3 حتی الانم یه سر و گردن بالاتره. مثلاً Veo 3 تونسته توی ویدیوهاش صدا و حتی صحبت و افکتهای محیطی رو جا بده! مثل این که توی یه کلیپ، صدای ریختن قهوه، تق تق فنجون، یا همهمۀ یه کافه واقعی رو هم میشنوی. یعنی فقط یه فیلم صامت نمیبینی؛ واقعاً حس میکنی تو صحنهای که ساختی حضور داری!
حالا اینجاست که OpenAI باید واسه جذابکردن سورا ۲ علاوه بر تصویری که درست میکنه، کار رو برای اضافه کردن صدا، افکت صوتی و حتی صدای محیط (مثلا صدای بارون یا جمعیت) حسابی ارتقا بده. اضافهکردن صدا به ویدیوهای AI کار راحتی نیست، مخصوصاً هماهنگی لب با صدا (Lip-sync یعنی دقیقاً حرف زدن رو طوری نشون بده که انگار صدا از دهن شخصیت بیرون میاد). Veo 3 این کار رو تا حد خوبی انجام داده ولی همچنان بینقص نیست؛ مثلاً بعضی وقتا موزیک پسزمینه با حال و هوای ویدیو هماهنگ در میاد، یا افکتها دقیق سر جای خودش قرار میگیرن.
اما یکی دیگه از برتریهای سورا اینه که میتونه تا ۲۰ ثانیه یا بیشتر ویدیوهای با کیفیت تولید کنه؛ در حالی که Veo 3 فعلاً ویدیوهاش رو تا سقف ۸ ثانیه میسازه. اگه سورا ۲ بتونه تا ۳۰ ثانیه یا حتی بیشتر ویدیو درست کنه، احتمالاً دل خیلیا رو میبره؛ چون فضای بیشتری برای خلاقیت و داستانگویی داری.
نکته بامزه دیگه اینه که سورا داخل خود ChatGPT در دسترس میشه و میتونی توی یه پروژه بزرگتر هم ازش استفاده کنی. این انعطاف به سورا حسابی امتیاز میده؛ ولی بازم اون نبود صدا واقعاً احساس میشه… یعنی شاید بتونی فیلم خفن درست کنی، اما اگه صداهاش با تصاویر خوب هماهنگ نباشه، یه چیزی کم خواهد بود.
البته هر چی این هوش مصنوعیا حرفهایتر بشن، نگرانی درباره مرز واقعیت و فیک بودن هم بیشتر میشه. الان هر دو مدل یعنی سورا و Veo 3 اجازه نمیدن کاربرها برای ساخت ویدیو از افراد مشهور، خشونت یا محتوای کپیرایت شده استفاده کنن. (کپیرایت یعنی چیزی که مال یه نفر یا شرکت دیگه است و بدون اجازه نمیشه ازش استفاده کرد). ولی وقتی صدا اضافه بشه، سؤال جدیدی پیش میاد: آیا مثلاً صداهای ساخته شده هم واقعی به نظر میان؟ منبع این صداها کیه و چطور میتونیم مطمئن بشیم دور از سواستفادهست؟
بعدش، قضیه قیمت هم خیلی مهم میشه! الان Veo 3 فقط با یه اشتراک خیلی گرونقیمت (ماهانه ۲۵۰ دلار تو سرویس AI Ultra گوگل Gemini Advanced) قابل استفادست. یعنی اگه بخوای مرتب باهاش کار کنی باید دست توی جیب ببری. حالا اگه OpenAI هم سورا ۲ رو برای پلنهای Plus یا Pro چتجیپیتی بذاره – یا حتی اگه دسترسی واسه پلنهای ارزونتر ایجاد کنه – احتمالاً کلی ملت رو سمت خودش میکشه. واسه خیلیا چیزی که مهمه اینه: قیمت مناسب باشه و کار کردنش راحت!
خلاصه سورا ۲ اگه بتونه هم صدای خفن تولید کنه، هم کیفیت ویدیو رو حفظ کنه، هم قیمتش رو منطقی نگه داره و استفادهاش آسون باشه، شاید واقعاً بتونه جدیتر از همیشه توی رقابت با Veo 3 غوغا کنه. معلوم نیست دقیقاً کی لانچ میشه — فقط یه سری نشونهها تو سرورهای OpenAI هست که داره نزدیک میشه.
پس فعلاً منتظر بمونیم ببینیم این مسابقه جذاب تکست به ویدیو به کجا میکشه!
راستی، شاید بخوای بدونی که Midjourney (اونی که به خاطر تصویرسازیش معروف شده) هم تازه اولین مدل ویدیوی خودشو معرفی کرده… ظاهراً این مدلای AI دارن واقعاً دنیا رو متحول میکنن! 😄
منبع: +