داستان عجیب زیرنویس‌های پرت‌وپلا تو Veo 3؛ هوش مصنوعی و دردسر جدیدش!

خب رفقا، اگه اهل تکنولوژی و هوش مصنوعی باشین، حتماً اسم Veo 3 به گوشتون خورده—مدل ساخت ویدیوی هوشمند جدید گوگل که آخرای ماه می روونه بازار شد و کلی سر و صدا کرد! این نسخه که فقط چند ماه بعد از نسخه قبلی اومد، واسه اولین‌بار اجازه میده نه‌تنها ویدیو بسازین، بلکه صدا و دیالوگ هم اضافه کنین. همین باعث شد هنرمندا و خلاق‌ها بدوبدو برن تستش کنن و هشت ثانیه‌ای کلی ویدیوی عجیب غریب و خفن بسازن؛ از تبلیغ و ASMR (یعنی همون ویدیوهایی که صداشون آدمو آروم می‌کنه) گرفته تا تیزر فیلم و مصاحبه‌های خیابونی فان.

حتی یه کارگردان معروف هالیوودی به اسم دارن آرونوفسکی (کسی که اسکار نامزد شده!) با Veo 3 یه فیلم کوتاه ساخته به اسم “Ancestra”. مدیرعامل گوگل دیپ‌مایند، دمیس هسابیس، هم تو یه نشست خبری گفت “انگار داریم از دوران فیلم‌های صامت و بدون صدا خارج میشیم”—یعنی مدل قبلی فقط ویدیو می‌ساخت ولی الان صدا و دیالوگ هم اضافه شده.

حالا همه اینا قشنگ بود، ولی یه سری کاربرا خیلی زود فهمیدن Veo 3 یه باگ عجیب داره: هر وقت تو کلیپ‌ها دیالوگی باشه، مدل خودش شروع می‌کنه زیرنویس درست کردن. مشکل اینجاست که این زیرنویس‌ها حسابی پرت و نامفهومه! یعنی حتی اگه تو پرامپت (Pormpt یعنی دستور یا توضیح متنی‌ای که به هوش مصنوعی میدین) بنویسی “هیچ زیرنویسی نمی‌خوام”، بازم Veo 3 برا خودش یه سری متن عجق‌وجق پایین ویدیو می‌اندازه.

حالا فکر می‌کنین پاک کردن این زیرنویس‌های اضافی سادست؟ نه بابا! خیلی وقتا مجبوری کلیپ رو دوباره تولید کنی (که پول برات درمیاد)، یا بری سرویس‌های جداگونه واسه پاک کردن زیرنویس استفاده کنی یا حتی قسمتی از ویدیو رو کات کنی که اون زیرنویسای عجیب نمونن. یکی از کاربرا به اسم Mona Weiss که تو حوزه تبلیغات کار می‌کنه، میگه: “اگه بخوای این دیالوگا رو درست تولید کنی، شاید تقریباً ۴۰ درصد ویدیوها زیرنویس پرت‌وپلا دارن و اون ویدیو قابل‌استفاده نیست. آدم الکی پولش میره و آخرشم چیزی که بخواد نمی‌گیره!”

این سرویس فقط واسه کاربرای ویژه‌ایه که ماهانه حداقل ۲۵۰ دلار پول میدن (یعنی شروع اشتراک از همین قیمته!). هر بار که با Veo 3 یه کلیپ هشت ثانیه‌ای بسازین، حداقل ۲۰ تا “کریت” (Credit یعنی واحد پولی یا امتیازی داخل سرویس) از حسابت کم میشه و می‌تونی ۲۵۰۰ کریت رو با ۲۵ دلار بخری. خلاصه اگر هی بخوای ویدیو رو مجدد بسازی تا از زیرنویس خلاص شی، جیبت حسابی خالی میشه!

البته گوگل گفته رو مشکل کار می‌کنه. مثلاً جاش وودوارد، معاون Google Labs، تو X (همون توئیتر سابق) نوشته بود که گوگل یه سری راه‌حل گذاشته تا این متنای نافهم از بین بره. ولی یه ماه بعد هم هنوز کلی کاربر تو دیسکورد (Discord یه چت‌روم بزرگ واسه جامعه‌های مختلفه) شکایت می‌کنن که مشکل پابرجاست؛ اونم تو کانال رسمی خود گوگل! پس فهمیدن و رفع کردن همچین باگ‌هایی تو مدل‌های هوش مصنوعی کار آسونی نیست.

حالا چرا اصلاً Veo 3 این زیرنویس‌ها رو می‌ذاره و چرا درست‌کردنش اینقد سخته؟ ماجرا برمی‌گرده به اینکه این مدل روی چه داده‌هایی آموزش دیده. اگه نمی‌دونین، مدل‌های هوش مصنوعی مثل Veo 3 با کلی ویدیو و تصویر تغذیه میشن تا یاد بگیرن چطور تولید کنن. احتمال زیاد گوگل کلی ویدیو از یوتیوب، ولاگ‌ها و ویدیوهای تیک‌تاک رو ریخته تو داده‌های آموزشی، و خیلی از این کلیپا زیرنویس دارن. و چون این زیرنویس‌ها بخشی از خود تصویرن (نه یه لایه جدا)، جدا کرد و پاک کردنشون از داده‌های آموزشی خیلی سخت و وقت‌گیره.

یه استاد دانشگاه کلارک به اسم Shuo Niu که روی پلتفرم‌های اشتراک ویدیو و هوش مصنوعی تحقیق می‌کنه، میگه: “وقتی Veo 3 رو با کلی ویدیوی زیرنویس‌دار آموزش میدن، این مدل یاد می‌گیره که زیرنویس بذاره شبیه کار آدم‌ها باشه!”

از اون طرف، بعضی‌ها به گوگل فیدبک دادن و درخواست اصلاح کردن. خود گوگل هم گفت: “داریم مدام روی بهبود خروجی‌ها کار می‌کنیم، مخصوصاً هماهنگی صدا و نوشته‌ و اینکه حالت انسانی‌تری داشته باشه. اگه مشکل دیدید، بازم امتحان کنید و حتماً با ما درمیون بذارید!” حتی پیشنهاد داده کاربران همون پایین صفحه با دکمه شست بالا یا پایین نظرشون رو بدن.

اما یه سوال: چرا Veo 3 حتی وقتی بهش می‌گی “زیرنویس نذار” بازم گوش نمی‌کنه؟ جوابش رو یه استاد دانشگاه Stony Brook به اسم Tuhin Chakrabarty داده: تو مدل‌های هوش مصنوعی، پرامپت منفی (مثلاً “این کار رو نکن”) معمولاً کمتر جواب میده تا پرامپت مثبت (یعنی بزنی چی بسازه). پس وقتی می‌گی “زیرنویس نباشه”، مدل خیلی درست درک نمی‌کنه!

راه‌حل؟ گوگل باید کل فریم‌های داده‌های آموزشی رو یکی‌یکی چک کنه، هر ویدیویی که زیرنویس داره یا پاکش کنه یا اصلاً دوباره برچسب بزنه، بعد مدل رو از نو آموزش بده. این پروسه واقعاً هفته‌ها طول می‌کشه و کلی دردسر داره.

در نهایت یه کارگردان مستند از MIT به اسم Katerina Cizek هم گفته مشکل دقیقا نشون می‌ده که گوگل چقدر دوست داره زودتر از همه ابزار جدید بده—even اگه هنوز کامل و بدون باگ نباشه. میگه: “گوگل باید یه امتیاز سریع می‌گرفت؛ براش مهم‌تر بود که اولین ابزاری باشه که صدا رو با لب‌خوانی هماهنگ تولید کنه و ترجیح داد مشکل زیرنویس رو فعلا بچزونه!”

در کل، Veo 3 کلی قابلیت خفن داره، اما اگه با همین سرعت جلو بره و مشکلاتی مثل زیرنویس رو رفع نکنه، یه خرده کاربرا رو اذیت می‌کنه. بازم باید صبر کنیم ببینیم گوگل بالاخره چطور این معمای زیرنویس‌ رو حل می‌کنه!

منبع: +