CIMR: یعنی چطوری مدل‌های هوش مصنوعی با فکر کردن دوباره، بهتر دستورها رو می‌فهمن!

Fall Back

خب بچه‌ها، اگه توی دنیای هوش مصنوعی و این مدل‌هایی که کلی حرف می‌زنن و عکس می‌بینن رو دنبال می‌کنید، حتماً اسم LLMها (Large Language Models یعنی مدل‌های زبانی بزرگ که می‌تونن متن رو درک و تولید کنن) و LVLMها (Large Vision-Language Models که همزمان هم متن رو می‌فهمن و هم تصویر) به گوشتون خورده. این مدل‌ها خیلی باحالن و کارای عجیب و غریبی می‌تونن انجام بدن. اما یه مشکل اساسی دارن: وقتی دستورها پیچیده و چندمرحله‌ای میشن، حالا چه متنی باشن و چه ترکیبی از متن و تصویر، خیلی وقتا قاطی می‌کنن و نمی‌تونن درست جواب بدن!

اینجاست که یه راه‌حل خفن به اسم CIMR وارد میشه! اسمش رو بخوام ساده بگم، CIMR یعنی: “Contextualized Iterative Multimodal Reasoning”. ترجمه دم‌دستی: “استدلال چندمرحله‌ای و متن-تصویر همراه با بازبینی و اصلاح خودش توی هر مرحله، با توجه به بقیه اطلاعات”. یعنی چی؟ یعنی این مدل خودش رو جای ما آدم‌ها می‌ذاره و هر بار که می‌خواد به سوالی جواب بده، نه تنها سعی می‌کنه جواب بده، بلکه خودش جوابش رو چک می‌کنه و اگر اشتباه بود، دوباره براساس بازخوردها (همون Feedback) و اطلاعاتی که از متن و تصویر می‌گیره، اصلاحش می‌کنه!

اینطوری فرض کنید CIMR دو تا مرحله داره:

  1. اول یه دور فکر می‌کنه و جواب میده.
  2. بعد، خودش جوابش رو بررسی می‌کنه، از بازخوردهای متنی و تصویری استفاده می‌کنه (مثلاً می‌فهمه کجای عکس یا متن می‌تونه به حل مسأله کمک کنه)، و باز اگه لازم باشه جواب رو ویرایش می‌کنه. این فرآیند انقدر تکرار میشه که به جواب نهایی و درست برسه.

یکی از بخش‌های توپ CIMR یه ماجرا به اسم “dynamic fusion module” داره. منظورش چیه؟ یعنی یه بخشی که اطلاعات تصویر، متن و حتی موقعیت فعلی سؤال رو همه رو با هم مخلوط می‌کنه و جوری با هم ترکیب می‌کنه که مدل بهترین تصمیم رو بگیره. این کار باعث میشه جواب خیلی دقیق‌تر و منطقی‌تر باشه.

برای اینکه ببینن این مدل واقعاً کار می‌کنه یا نه، محققان CIMR رو با یک مدل قبلی معروف به اسم LLaVA-1.5-7B (که خودش خیلی قویه!) روی دیتاستی به اسم Visual Instruction Tuning (VIT) آموزش دادن و بعد کلی تست سخت ازش گرفتن. برای ارزیابی نهایی هم از یه دیتاست تازه به اسم Multi-modal Action Planning (MAP) استفاده کردن. دیتاست یعنی مجموعه‌ای از سؤال‌ها و جواب‌ها و تصاویر که مدل باید روش امتحان پس بده!

نتیجه چی شد؟ مدل CIMR تونست به دقت ۹۱.۵٪ برسه! (این یعنی تقریباً همه سؤال‌ها رو درست جواب داده) این عدد بسیار بالاست، مخصوصاً وقتی بدونید که مدل گنده و حرفه‌ای مثل GPT-4V حتی عددش ۸۹.۲٪ شده، و مدل‌های دیگه مثلاً LLaVA-1.5 حدود ۷۸.۵٪ و MiniGPT-4 نزدیک ۷۵.۳٪ و InstructBLIP هم ۷۲.۸ درصد بوده. یعنی این مدل جدید واقعاً تونسته توی کارهای ترکیبی و پیچیده (که هم متن دارن هم تصویر و نیاز به استدلال دارن)، از بقیه مدل‌ها بهتر عمل کنه.

در کل، این داستان CIMR نشون میده که اگه مدل‌های هوش مصنوعی بتونن موقع جواب دادن، چندبار خودشون رو چک کنن و بازخورد بگیرن و اطلاعات تصویر و متن رو به صورت پویا با هم ترکیب کنن، واقعاً می‌شه به برطرف کردن مشکلات سخت و چندمرحله‌ای امید داشت. یعنی هوش مصنوعی نه فقط حرفه‌ای‌تر و دقیق‌تر میشه، بلکه می‌تونه کارهایی بکنه که تا همین چند ماه پیش براش غیرممکن بود!

پس خلاصه وار، اگه یه روزی یه مدل دیدید که هم می‌تونه عکس رو تفسیر کنه، هم متن رو بخونه، هم جواب درست رو بسازه، هم خودش رو تصحیح کنه و هم از بقیه قوی‌تر باشه، احتمالاً با یه چیزی شبیه CIMR طرف هستید!

منبع: +