چی شد که تیم DB3 توی مسابقات KDD Cup’25 قهرمان شد؟!

Fall Back

خب بچه‌ها میخوام یه خلاصه باحال از راه‌حلی که تیم DB3 برای مسابقه Meta CRAG-MM توی KDD Cup سال 2025 ارائه داد رو براتون تعریف کنم. این مقاله تو سایت arXiv هم منتشر شده و کلی سر و صدا کرده.

بذار اول یه چیزی رو توضیح بدم: این چالش CRAG-MM تو KDD Cup اصولاً دنبال یک مدل هوش مصنوعی چند-وجهی، چند-مرحله‌ای برای پاسخ دادن به سوال‌هاست. یعنی چی؟ چندوجهی یعنی باید بتونه با عکس، متن، نمودار و غیره سروکله بزنه. چندمرحله‌ای هم یعنی باید مثل یه گفت‌وگوی واقعی، در چند دور جواب بده و همیشه نباید فقط یه جمله بده، گفتگو باید پیش بره.

حالا تیم DB3 اومدن یه راه‌حل خیلی کامل و شاخ طراحی کردن که شامل دو بخش اصلی بوده:

  1. یک سری لوله‌های بازیابی (Retrieval Pipelines) مخصوص هر نوع اطلاعات

حالا Retrieval یعنی چی؟ یعنی مدل وقتی یه سوال کلی یا پیچیده ازش می‌پرسی، خودش می‌ره سراغ منابع مختلف – مثلاً دیتابیس عکس‌ها، گراف‌های دانشی (گراف دانش یعنی یه شبکه اطلاعاتی که هر گره‌ش یه چیز خاص رو نشون می‌ده، مثلاً اشیا یا آدم‌ها) و حتی وب – و سعی می‌کنه بهترین جواب رو از اونجاها پیدا کنه. هر نوع سوال یا وظیفه‌ای یه لوله مخصوص داشت تا دقیق‌تر کار کنه؛ مثلاً اگه سوال درباره عکس بود، می‌رفت سراغ گراف دانشی با ایندکس عکس‌ها.

  1. یک مدل LLM تنظیم‌شده برای کنترل هذیان‌گویی

اینجا منظور از LLM همون Large Language Modelهاست؛ یعنی مدل‌های زبانی بزرگ مثل GPT. اما اینا معمولا گاهی از خودشون حرف‌های الکی یا اشتباه می‌زنن که به این میگن hallucination یا هذیان‌گویی مدل! تیم DB3 یه رویکرد باحال داشت تا این مشکل رو کمتر کنه. چجوری؟ با استفاده از Refusal Training یعنی آموزش دادن به مدل که اگه جواب درست نداره یا مطمئن نیست، بهتره بگه “نمی‌دونم” یا اصلاً جواب نده. این آموزش با تکنیک‌های مختلف مثل SFT (یعنی آموزش نظارت‌شده)، DPO (Optimizing Policy با داده)، و RL (تقویت یادگیری یا همون RL – Reinforcement Learning) انجام شده بود.

نتیجه کل این داستان این شد که:

  • تو تسک 1 دوم شدن
  • تو تسک 2 هم دوم شدن
  • اما تسک 3 رو بردن و قهرمان شدن!

جالبه بدونی بزرگ‌ترین دستاوردشون این بود که تو سوال‌هایی که نگاه یا دید اول‌شخص داشت (Ego-centric Queries)، فوق‌العاده عمل کردن. یعنی مدلشون تونست سوال‌هایی که از زاویه “من” یا به صورت شخصی پرسیده می‌شه رو بهتر از بقیه جواب بده.

خلاصه با این کارا جایزه بزرگ این مسابقه معتبر رو بردن! خلاصه تیم DB3 واقعاً نشون دادن اگه درست و حسابی داده جمع کنی و مدل رو هم هوشمند تربیت کنی، توی کار کردن با سوال‌های پیچیده و چنددوره‌ای می‌تونه غوغا کنه.

امیدوارم این توضیحات باعث شده باشه یه تصویر خوب و راحت از کل پروژه‌شون بگیری! هر سوالی هم داشتی تو کامنت بپرس 🙂

منبع: +