سورا ۲ داره میاد، ولی برای بردن باید واقعاً همه رو شگفت‌زده کنه چون گوگل ویئو ۳ یه غول جدیه!

خب رفیق، خبر تازه اینه که OpenAI (همون شرکتی که ChatGPT رو ساخته) قراره به‌زودی سورا ۲ رو بده بیرون. سورا چیه؟ به زبون ساده، سورا یه مدل هوش مصنوعی ویدیوساز هست که فقط با نوشتن یه متن، برات ویدیو می‌سازه. به این مدل‌ها می‌گن text-to-video AI، یعنی هوش مصنوعی تبدیل متن به ویدیو. حالا سورا ۲ داره میاد، اما قضیه اینجاست که این بار رقابت جدی‌تر شده چون گوگل مدل ویئو ۳ خودش رو بیرون داده و حسابی همه رو انگشت به دهن گذاشته!

سورا وقتی اومد خیلیا رو تحت تاثیر گذاشت چون تصویرهایی که می‌ساخت حسابی باکیفیت بودن. فقط یه مشکل داشت: همه ویدیوها بی‌صدا بودن، یعنی فیلم صامتی بودن که هیچ صدایی ازشون درنمیومد!

اما ویئو ۳ گوگل یه قدم جلوتر رفت. مثلاً فرض کن ویدیویی از یه مرد نشون میده که داره با اسلوموشن قهوه می‌ریزه؛ تو فقط تصویر نمی‌بینی، بلکه صدای ریز ریز قهوه، برخورد استکان‌ها و حتی سروصدای پس‌زمینه اونجا رو هم حس می‌کنی! ویئو ۳ عملاً صدا رو، با لب‌خوانی درست و افکت محیط، به ویدیوهاش اضافه کرده و این خیلیه! (اینجور صداگذاری‌های طبیعی و هماهنگ با لب، کار سختیه برای هوش مصنوعی.)

پس اگه سورا ۲ می‌خواد کاربرا رو جذب خودش کنه، باید جدی‌تر وارد قضیه صدا بشه و فقط به تصویر بسنده نکنه. یعنی مثلا بتونه دیالوگ‌ها و صدای محیط رو دقیق و جذاب وارد ویدیو کنه. چون مثلاً الان خیلی از مدل‌های هوش مصنوعی فقط تصویر نشون میدن که یه نفر حرف می‌زنه، ولی اگه دقت کنی کاملاً مشخصه صدا جاش چقدر ناجوره یا لب‌خوانی نمی‌خوره به صدا! ویئو ۳ هنوز بی‌نقص نیست اما ویدیوهایی داره که واقعاً صدای دیالوگ با حرکت لب هماهنگه و حتی موزیک پس‌زمینه یا افکت‌ها رو دقیق با فضای ویدیو تنظیم می‌کنه.

نکته دیگه طول هر ویدیوشه. ویئو ۳ فعلاً تا هشت ثانیه ویدیو می‌سازه و کیفیت کارش تازه تو همین تایم کم غوغا کرده. اما سورا ۲ گفته می‌تونه تا ۲۰ ثانیه یا حتی سی ثانیه هم ویدیوی باکیفیت بسازه. اگه واقعاً بتونه این کیفیت رو تو تایم بیشتر حفظ کنه، قطعاً دل هنردوست‌ها و ویدیو بازا رو می‌بره! فکر کن ویدیوی جهش گربه‌ها به داخل استخر با صدای آب، میو میو و لبخندای طبیعی! (تازه اینجا همون cats jumping off high dives داستان معروفشه. 😄)

در کنارش، این نکته رو هم بدون که سورا تو ChatGPT هم هست و می‌تونی ویدیوسازی رو با پروژه‌های دیگه‌ات ترکیب کنی. به این میگن انعطافِ بالا، چون میشه ویدیوسازی رو با متن‌نویسی یا حتی تولید صوت ترکیب کرد و کلی پروژه خفن ساخت.

اما یه سری دردسرها و دغدغه‌ها هم هست. الان دیگه نسل جدید AI ویدیوسازها اونقدری قوی شدن که مرز واقعیت و ساختگی رو خط‌خطی می‌کنن. برای همین، سورا و ویئو ۳ اصلاً اجازه نمی‌دن کسی با عکس یا اسم افراد واقعی، محتواهای خشن یا مطلب دارای کپی‌رایت (یعنی مطالبی که حق نشر دارن و تولیدشون آزاد نیست) ویدیو بسازه. حالا با اومدن صدا، تازه یه مرحله دیگه هم حساسیت‌ها میره بالا: صدای آدمیزاد و دیالوگ‌های طبیعی رو هم باید مواظب باشن سوءاستفاده نشه!

و اما می‌مونه بحث اصلی ما گیک‌ها: قیمت! ویئو ۳ فعلاً زیر مجموعه پکیج پولی گوگل Gemini Advancedه و اگه بخوای دائم استفاده کنی، باید ماهی ۲۵۰ دلار سلف کنی! (واقعاً عددر بالایی‌یه.) حالا همه چی بسته به اینه OpenAI برای سورا ۲ چه قیمتی بذاره. اگه سهم بیشتری از امکانات رو تو نسخه‌های ارزون‌تر مثل ChatGPT Plus بده، احتمالاً کاربر بیشتری دور خودش جمع می‌کنه و گوگل رو به رقابت می‌کشه.

در کل هر کی می‌خواد شروع کنه به ویدیوسازی با هوش مصنوعی، برایش قیمت، راحت بودن کار با ابزار و کیفیت خروجی ویدیو تقریباً به یه اندازه مهمه. یعنی فقط تصویر باکیفیت یا صدا کافی نیست، هر چی ابزار راحت‌تر و ارزون‌تر و حرفه‌ای‌تر باشه، شانس محبوب شدنش بیشتره.

پس سورا ۲ واقعاً کار سختی داره. باید تصویر عالی بسازه، صدا و گفت‌وگو رو طبیعی و هماهنگ در بیاره و قیمت و امکاناتش هم طوری باشه که ملت خوششون بیاد و سریع بتونن روش حساب کنن. باید منتظر موند و دید سورا ۲ فقط یه صدای بی‌صدا تو این رقابت میشه، یا می‌تونه غوغا کنه و سلطنت کنه!

راستی، اگه علاقه‌مندی، مدل ویدیوساز Midjourney هم تازه وارد بازی شده و قراره کلی معرکه بشه و رقابت رو داغ‌تر کنه. ویدیوهای ASMR ساخته‌شده با AI هم بحث خودشونو دارن! خلاصه این بازار هوش مصنوعی روزبه‌روز باحال‌تر و جنجالی‌تر میشه.

منبع: +