خب بچهها میخوام یه خلاصه باحال از راهحلی که تیم DB3 برای مسابقه Meta CRAG-MM توی KDD Cup سال 2025 ارائه داد رو براتون تعریف کنم. این مقاله تو سایت arXiv هم منتشر شده و کلی سر و صدا کرده.
بذار اول یه چیزی رو توضیح بدم: این چالش CRAG-MM تو KDD Cup اصولاً دنبال یک مدل هوش مصنوعی چند-وجهی، چند-مرحلهای برای پاسخ دادن به سوالهاست. یعنی چی؟ چندوجهی یعنی باید بتونه با عکس، متن، نمودار و غیره سروکله بزنه. چندمرحلهای هم یعنی باید مثل یه گفتوگوی واقعی، در چند دور جواب بده و همیشه نباید فقط یه جمله بده، گفتگو باید پیش بره.
حالا تیم DB3 اومدن یه راهحل خیلی کامل و شاخ طراحی کردن که شامل دو بخش اصلی بوده:
- یک سری لولههای بازیابی (Retrieval Pipelines) مخصوص هر نوع اطلاعات
حالا Retrieval یعنی چی؟ یعنی مدل وقتی یه سوال کلی یا پیچیده ازش میپرسی، خودش میره سراغ منابع مختلف – مثلاً دیتابیس عکسها، گرافهای دانشی (گراف دانش یعنی یه شبکه اطلاعاتی که هر گرهش یه چیز خاص رو نشون میده، مثلاً اشیا یا آدمها) و حتی وب – و سعی میکنه بهترین جواب رو از اونجاها پیدا کنه. هر نوع سوال یا وظیفهای یه لوله مخصوص داشت تا دقیقتر کار کنه؛ مثلاً اگه سوال درباره عکس بود، میرفت سراغ گراف دانشی با ایندکس عکسها.
- یک مدل LLM تنظیمشده برای کنترل هذیانگویی
اینجا منظور از LLM همون Large Language Modelهاست؛ یعنی مدلهای زبانی بزرگ مثل GPT. اما اینا معمولا گاهی از خودشون حرفهای الکی یا اشتباه میزنن که به این میگن hallucination یا هذیانگویی مدل! تیم DB3 یه رویکرد باحال داشت تا این مشکل رو کمتر کنه. چجوری؟ با استفاده از Refusal Training یعنی آموزش دادن به مدل که اگه جواب درست نداره یا مطمئن نیست، بهتره بگه “نمیدونم” یا اصلاً جواب نده. این آموزش با تکنیکهای مختلف مثل SFT (یعنی آموزش نظارتشده)، DPO (Optimizing Policy با داده)، و RL (تقویت یادگیری یا همون RL – Reinforcement Learning) انجام شده بود.
نتیجه کل این داستان این شد که:
- تو تسک 1 دوم شدن
- تو تسک 2 هم دوم شدن
- اما تسک 3 رو بردن و قهرمان شدن!
جالبه بدونی بزرگترین دستاوردشون این بود که تو سوالهایی که نگاه یا دید اولشخص داشت (Ego-centric Queries)، فوقالعاده عمل کردن. یعنی مدلشون تونست سوالهایی که از زاویه “من” یا به صورت شخصی پرسیده میشه رو بهتر از بقیه جواب بده.
خلاصه با این کارا جایزه بزرگ این مسابقه معتبر رو بردن! خلاصه تیم DB3 واقعاً نشون دادن اگه درست و حسابی داده جمع کنی و مدل رو هم هوشمند تربیت کنی، توی کار کردن با سوالهای پیچیده و چنددورهای میتونه غوغا کنه.
امیدوارم این توضیحات باعث شده باشه یه تصویر خوب و راحت از کل پروژهشون بگیری! هر سوالی هم داشتی تو کامنت بپرس 🙂
منبع: +