خب رفیق، خبر تازه اینه که OpenAI (همون شرکتی که ChatGPT رو ساخته) قراره بهزودی سورا ۲ رو بده بیرون. سورا چیه؟ به زبون ساده، سورا یه مدل هوش مصنوعی ویدیوساز هست که فقط با نوشتن یه متن، برات ویدیو میسازه. به این مدلها میگن text-to-video AI، یعنی هوش مصنوعی تبدیل متن به ویدیو. حالا سورا ۲ داره میاد، اما قضیه اینجاست که این بار رقابت جدیتر شده چون گوگل مدل ویئو ۳ خودش رو بیرون داده و حسابی همه رو انگشت به دهن گذاشته!
سورا وقتی اومد خیلیا رو تحت تاثیر گذاشت چون تصویرهایی که میساخت حسابی باکیفیت بودن. فقط یه مشکل داشت: همه ویدیوها بیصدا بودن، یعنی فیلم صامتی بودن که هیچ صدایی ازشون درنمیومد!
اما ویئو ۳ گوگل یه قدم جلوتر رفت. مثلاً فرض کن ویدیویی از یه مرد نشون میده که داره با اسلوموشن قهوه میریزه؛ تو فقط تصویر نمیبینی، بلکه صدای ریز ریز قهوه، برخورد استکانها و حتی سروصدای پسزمینه اونجا رو هم حس میکنی! ویئو ۳ عملاً صدا رو، با لبخوانی درست و افکت محیط، به ویدیوهاش اضافه کرده و این خیلیه! (اینجور صداگذاریهای طبیعی و هماهنگ با لب، کار سختیه برای هوش مصنوعی.)
پس اگه سورا ۲ میخواد کاربرا رو جذب خودش کنه، باید جدیتر وارد قضیه صدا بشه و فقط به تصویر بسنده نکنه. یعنی مثلا بتونه دیالوگها و صدای محیط رو دقیق و جذاب وارد ویدیو کنه. چون مثلاً الان خیلی از مدلهای هوش مصنوعی فقط تصویر نشون میدن که یه نفر حرف میزنه، ولی اگه دقت کنی کاملاً مشخصه صدا جاش چقدر ناجوره یا لبخوانی نمیخوره به صدا! ویئو ۳ هنوز بینقص نیست اما ویدیوهایی داره که واقعاً صدای دیالوگ با حرکت لب هماهنگه و حتی موزیک پسزمینه یا افکتها رو دقیق با فضای ویدیو تنظیم میکنه.
نکته دیگه طول هر ویدیوشه. ویئو ۳ فعلاً تا هشت ثانیه ویدیو میسازه و کیفیت کارش تازه تو همین تایم کم غوغا کرده. اما سورا ۲ گفته میتونه تا ۲۰ ثانیه یا حتی سی ثانیه هم ویدیوی باکیفیت بسازه. اگه واقعاً بتونه این کیفیت رو تو تایم بیشتر حفظ کنه، قطعاً دل هنردوستها و ویدیو بازا رو میبره! فکر کن ویدیوی جهش گربهها به داخل استخر با صدای آب، میو میو و لبخندای طبیعی! (تازه اینجا همون cats jumping off high dives داستان معروفشه. 😄)
در کنارش، این نکته رو هم بدون که سورا تو ChatGPT هم هست و میتونی ویدیوسازی رو با پروژههای دیگهات ترکیب کنی. به این میگن انعطافِ بالا، چون میشه ویدیوسازی رو با متننویسی یا حتی تولید صوت ترکیب کرد و کلی پروژه خفن ساخت.
اما یه سری دردسرها و دغدغهها هم هست. الان دیگه نسل جدید AI ویدیوسازها اونقدری قوی شدن که مرز واقعیت و ساختگی رو خطخطی میکنن. برای همین، سورا و ویئو ۳ اصلاً اجازه نمیدن کسی با عکس یا اسم افراد واقعی، محتواهای خشن یا مطلب دارای کپیرایت (یعنی مطالبی که حق نشر دارن و تولیدشون آزاد نیست) ویدیو بسازه. حالا با اومدن صدا، تازه یه مرحله دیگه هم حساسیتها میره بالا: صدای آدمیزاد و دیالوگهای طبیعی رو هم باید مواظب باشن سوءاستفاده نشه!
و اما میمونه بحث اصلی ما گیکها: قیمت! ویئو ۳ فعلاً زیر مجموعه پکیج پولی گوگل Gemini Advancedه و اگه بخوای دائم استفاده کنی، باید ماهی ۲۵۰ دلار سلف کنی! (واقعاً عددر بالایییه.) حالا همه چی بسته به اینه OpenAI برای سورا ۲ چه قیمتی بذاره. اگه سهم بیشتری از امکانات رو تو نسخههای ارزونتر مثل ChatGPT Plus بده، احتمالاً کاربر بیشتری دور خودش جمع میکنه و گوگل رو به رقابت میکشه.
در کل هر کی میخواد شروع کنه به ویدیوسازی با هوش مصنوعی، برایش قیمت، راحت بودن کار با ابزار و کیفیت خروجی ویدیو تقریباً به یه اندازه مهمه. یعنی فقط تصویر باکیفیت یا صدا کافی نیست، هر چی ابزار راحتتر و ارزونتر و حرفهایتر باشه، شانس محبوب شدنش بیشتره.
پس سورا ۲ واقعاً کار سختی داره. باید تصویر عالی بسازه، صدا و گفتوگو رو طبیعی و هماهنگ در بیاره و قیمت و امکاناتش هم طوری باشه که ملت خوششون بیاد و سریع بتونن روش حساب کنن. باید منتظر موند و دید سورا ۲ فقط یه صدای بیصدا تو این رقابت میشه، یا میتونه غوغا کنه و سلطنت کنه!
راستی، اگه علاقهمندی، مدل ویدیوساز Midjourney هم تازه وارد بازی شده و قراره کلی معرکه بشه و رقابت رو داغتر کنه. ویدیوهای ASMR ساختهشده با AI هم بحث خودشونو دارن! خلاصه این بازار هوش مصنوعی روزبهروز باحالتر و جنجالیتر میشه.
منبع: +