خب رفقا، اگه اهل تکنولوژی و هوش مصنوعی باشین، حتماً اسم Veo 3 به گوشتون خورده—مدل ساخت ویدیوی هوشمند جدید گوگل که آخرای ماه می روونه بازار شد و کلی سر و صدا کرد! این نسخه که فقط چند ماه بعد از نسخه قبلی اومد، واسه اولینبار اجازه میده نهتنها ویدیو بسازین، بلکه صدا و دیالوگ هم اضافه کنین. همین باعث شد هنرمندا و خلاقها بدوبدو برن تستش کنن و هشت ثانیهای کلی ویدیوی عجیب غریب و خفن بسازن؛ از تبلیغ و ASMR (یعنی همون ویدیوهایی که صداشون آدمو آروم میکنه) گرفته تا تیزر فیلم و مصاحبههای خیابونی فان.
حتی یه کارگردان معروف هالیوودی به اسم دارن آرونوفسکی (کسی که اسکار نامزد شده!) با Veo 3 یه فیلم کوتاه ساخته به اسم “Ancestra”. مدیرعامل گوگل دیپمایند، دمیس هسابیس، هم تو یه نشست خبری گفت “انگار داریم از دوران فیلمهای صامت و بدون صدا خارج میشیم”—یعنی مدل قبلی فقط ویدیو میساخت ولی الان صدا و دیالوگ هم اضافه شده.
حالا همه اینا قشنگ بود، ولی یه سری کاربرا خیلی زود فهمیدن Veo 3 یه باگ عجیب داره: هر وقت تو کلیپها دیالوگی باشه، مدل خودش شروع میکنه زیرنویس درست کردن. مشکل اینجاست که این زیرنویسها حسابی پرت و نامفهومه! یعنی حتی اگه تو پرامپت (Pormpt یعنی دستور یا توضیح متنیای که به هوش مصنوعی میدین) بنویسی “هیچ زیرنویسی نمیخوام”، بازم Veo 3 برا خودش یه سری متن عجقوجق پایین ویدیو میاندازه.
حالا فکر میکنین پاک کردن این زیرنویسهای اضافی سادست؟ نه بابا! خیلی وقتا مجبوری کلیپ رو دوباره تولید کنی (که پول برات درمیاد)، یا بری سرویسهای جداگونه واسه پاک کردن زیرنویس استفاده کنی یا حتی قسمتی از ویدیو رو کات کنی که اون زیرنویسای عجیب نمونن. یکی از کاربرا به اسم Mona Weiss که تو حوزه تبلیغات کار میکنه، میگه: “اگه بخوای این دیالوگا رو درست تولید کنی، شاید تقریباً ۴۰ درصد ویدیوها زیرنویس پرتوپلا دارن و اون ویدیو قابلاستفاده نیست. آدم الکی پولش میره و آخرشم چیزی که بخواد نمیگیره!”
این سرویس فقط واسه کاربرای ویژهایه که ماهانه حداقل ۲۵۰ دلار پول میدن (یعنی شروع اشتراک از همین قیمته!). هر بار که با Veo 3 یه کلیپ هشت ثانیهای بسازین، حداقل ۲۰ تا “کریت” (Credit یعنی واحد پولی یا امتیازی داخل سرویس) از حسابت کم میشه و میتونی ۲۵۰۰ کریت رو با ۲۵ دلار بخری. خلاصه اگر هی بخوای ویدیو رو مجدد بسازی تا از زیرنویس خلاص شی، جیبت حسابی خالی میشه!
البته گوگل گفته رو مشکل کار میکنه. مثلاً جاش وودوارد، معاون Google Labs، تو X (همون توئیتر سابق) نوشته بود که گوگل یه سری راهحل گذاشته تا این متنای نافهم از بین بره. ولی یه ماه بعد هم هنوز کلی کاربر تو دیسکورد (Discord یه چتروم بزرگ واسه جامعههای مختلفه) شکایت میکنن که مشکل پابرجاست؛ اونم تو کانال رسمی خود گوگل! پس فهمیدن و رفع کردن همچین باگهایی تو مدلهای هوش مصنوعی کار آسونی نیست.
حالا چرا اصلاً Veo 3 این زیرنویسها رو میذاره و چرا درستکردنش اینقد سخته؟ ماجرا برمیگرده به اینکه این مدل روی چه دادههایی آموزش دیده. اگه نمیدونین، مدلهای هوش مصنوعی مثل Veo 3 با کلی ویدیو و تصویر تغذیه میشن تا یاد بگیرن چطور تولید کنن. احتمال زیاد گوگل کلی ویدیو از یوتیوب، ولاگها و ویدیوهای تیکتاک رو ریخته تو دادههای آموزشی، و خیلی از این کلیپا زیرنویس دارن. و چون این زیرنویسها بخشی از خود تصویرن (نه یه لایه جدا)، جدا کرد و پاک کردنشون از دادههای آموزشی خیلی سخت و وقتگیره.
یه استاد دانشگاه کلارک به اسم Shuo Niu که روی پلتفرمهای اشتراک ویدیو و هوش مصنوعی تحقیق میکنه، میگه: “وقتی Veo 3 رو با کلی ویدیوی زیرنویسدار آموزش میدن، این مدل یاد میگیره که زیرنویس بذاره شبیه کار آدمها باشه!”
از اون طرف، بعضیها به گوگل فیدبک دادن و درخواست اصلاح کردن. خود گوگل هم گفت: “داریم مدام روی بهبود خروجیها کار میکنیم، مخصوصاً هماهنگی صدا و نوشته و اینکه حالت انسانیتری داشته باشه. اگه مشکل دیدید، بازم امتحان کنید و حتماً با ما درمیون بذارید!” حتی پیشنهاد داده کاربران همون پایین صفحه با دکمه شست بالا یا پایین نظرشون رو بدن.
اما یه سوال: چرا Veo 3 حتی وقتی بهش میگی “زیرنویس نذار” بازم گوش نمیکنه؟ جوابش رو یه استاد دانشگاه Stony Brook به اسم Tuhin Chakrabarty داده: تو مدلهای هوش مصنوعی، پرامپت منفی (مثلاً “این کار رو نکن”) معمولاً کمتر جواب میده تا پرامپت مثبت (یعنی بزنی چی بسازه). پس وقتی میگی “زیرنویس نباشه”، مدل خیلی درست درک نمیکنه!
راهحل؟ گوگل باید کل فریمهای دادههای آموزشی رو یکییکی چک کنه، هر ویدیویی که زیرنویس داره یا پاکش کنه یا اصلاً دوباره برچسب بزنه، بعد مدل رو از نو آموزش بده. این پروسه واقعاً هفتهها طول میکشه و کلی دردسر داره.
در نهایت یه کارگردان مستند از MIT به اسم Katerina Cizek هم گفته مشکل دقیقا نشون میده که گوگل چقدر دوست داره زودتر از همه ابزار جدید بده—even اگه هنوز کامل و بدون باگ نباشه. میگه: “گوگل باید یه امتیاز سریع میگرفت؛ براش مهمتر بود که اولین ابزاری باشه که صدا رو با لبخوانی هماهنگ تولید کنه و ترجیح داد مشکل زیرنویس رو فعلا بچزونه!”
در کل، Veo 3 کلی قابلیت خفن داره، اما اگه با همین سرعت جلو بره و مشکلاتی مثل زیرنویس رو رفع نکنه، یه خرده کاربرا رو اذیت میکنه. بازم باید صبر کنیم ببینیم گوگل بالاخره چطور این معمای زیرنویس رو حل میکنه!
منبع: +