وقتی هوش مصنوعی با مدل‌های ویدیویی داره شطرنج و سودوکو و معما رو حل می‌کنه!

Fall Back

یه خبر خیلی باحال داغ برات دارم! الان مدل‌های تولید ویدیو (یعنی مدل‌هایی که خودشون می‌تونن ویدیو درست کنن، نه فقط عکس یا متن)، دیگه فقط سرگرم‌کننده یا دیدنی نیستن، بلکه واقعاً دارن “استدلال” یا همون Reasoning یعنی قدرت فکر و حل مسئله رو نشون می‌دن!

مثلاً تیمی اومده و کارهای جالبی انجام داده. اونا رفتن سراغ بازی‌هایی مثل شطرنج، حل ماز (همون راه پیدا کردن توی مارپیچ)، سودوکو (یه جور پازل اعداد)، روتیشن ذهنی یعنی تصور جابجایی سه‌بعدی اجسام توی ذهن، و حتی Raven’s Matrices (که تست هوشه و الگوهای تصویری داره) تا ببینن مدل ویدیویی Sora-2 و مدلای مشابه چقدر می‌تونن مثل یه آدم این مسائل رو حل کنن.

نتیجه چی شده؟ مدل Sora-2 تونسته ۶۰ درصد موفقیت داشته باشه! یعنی توی اینجور معماها بیشتر از نصف مواقع جواب درست داده. حالا ممکنه بگی “۶۰ درصد که عالی نیست!” اما خب برای مدلی که فقط ویدیو تولید می‌کنه و قرار نبوده استدلال بلد باشه، این خیلیه!‌

حالا نکته اصلی چیه؟ این محقق‌ها یه “پارادایم آزمایشی” جدید درست کردن به اسم “Task Pair” یعنی جفت شدن کارها برای تست بهتر مدل. توی این روش، می‌تونن هم کارهای مختلف رو به مدل بدن، هم مدل‌های جدید رو راحت اضافه کنن، و نتایج رو هم دمه‌دستی و اتوماتیک بسنجن. اینطوری مثلاً اگه یه نفر یه مدل باحال‌تر ساخت، راحت میاره اینجا و تست می‌گیرن، لازم نیست همه‌چی رو از اول بسازن.

کدشون هم کاملاً آماده‌ست و ۳۹ تا مدل توش هست که می‌تونی هر تاسک جدیدی هم بخوای اضافه کنی. یعنی فریم‌ورک (قاب فنی برای برنامه‌نویس‌ها) بزرگ و قابلیت ارتقا دادن بالایی داره.

یک کار باحال دیگه که انجام دادن اینه که ارزیابی اتوماتیک‌شون خیلی با نظرات آدمیزاد مطابقت داره! یعنی اگه سیستم بگه این مدل خوبه، واقعاً آدم‌ها هم معمولاً همین حس رو دارن. این یعنی دیگه لازم نیست همیشه بشینی کلی ویدیو رو دستی چک کنی.

اینا می‌گن این آزمایش و پارادایم جدید یه فرصت فوق‌العاده‌ست واسه اینکه مدل‌ها رو با یادگیری تقویتی (Reinforcement Learning یعنی مدلی که هی امتحان می‌کنه، جایزه می‌گیره یا از اشتباهش یاد می‌گیره) بهتر کنیم تا دیگه حتی باهوش‌تر و خفن‌تر بشن.

اگه دوست داشتی نتایج خام (ویدیوی حل این مسائل توسط مدل‌ها) رو ببینی یا بری سراغ کد این سیستم، می‌تونی از سایت‌شون یا گیت‌هاب (Github ـ مخزن اشتراک کد تو اینترنت) استفاده کنی.

خلاصه اش اینه که وقتشه به مدل‌هایی که فقط برای ویدیو ساختن بوجود اومده بودن، کمی بیشتر احترام بذاریم! معلوم نیست فردا دیگه با چی سورپرایزمون کنن…

منبع: +