ترکیب مدل‌های زبانی بزرگ با گراف دانش: چطور KG-o1 جواب‌های چندمرحله‌ای رو باهوش‌تر میده!

خب بچه‌ها بیاید یه موضوع جالب تو دنیای هوش مصنوعی رو باهم بررسی کنیم. اگه تا حالا با مدل‌های زبانی بزرگ (Large Language Models یا همون LLMها؛ مثلاً ChatGPT) سر و کله زدید احتمالاً متوجه شدید که خیلی چیزارو خوب بلدن، اما وقتی صحبت از سوال‌های پیچیده و چندمرحله‌ای میشه، گاهی قاطی می‌کنن!

اینجاست که محققای باحال اومدن یه ایده نو دادن به اسم KG-o1. حالا می‌پرسید این چیه؟ به طور خلاصه، KG مخفف Knowledge Graph هست؛ یعنی «گراف دانش»، یه جور شبکه که داخلش اطلاعات به شکل موجودیت‌ها (مثلاً “برلین” یا “اسکیت بازی”) و رابطه‌هاشون با هم ذخیره میشه. انگار همه‌ی چیزایی که تو مغز ما مرتبط هستن رو کشیدن و وصل کردن بهم!

حالا KG-o1 تلفیق قدرت این گراف‌های دانش با مدل‌های زبانیه. مشکل اصلی LLMها اینه که زنجیره فکری یا همون Chain of Thought شون توی سوال‌های منطقی (یعنی باید چند مرحله فکر کنی تا به جواب برسی) معمولا شبیه قصه‌پردازیه تا واقعیات! در حالی که تو گراف دانش همه چیز واضح و منطقی وصله.

ولی نکته جالب اینجاست: یه مدل به اسم o1 (که از این مدلای reasoning یا استدلالی هست و بهشون Large Reasoning Models یا LRM گفته میشه) نشون داده که فکر کردن بلندمدت و چندمرحله‌ای خیلی می‌تونه به مدل‌های زبانی کمک کنه. خلاصه همین ایده‌ی بلندمدت فکر کردن رو گرفتن و با گراف دانش قاطی کردن و شد KG-o1!

حالا KG-o1 چجوری کار می‌کنه؟ چهار مرحله داره:

اول از همه میاد موجودیت‌های اصلیِ سوال رو جدا می‌کنه و بعد باهاشون یک سری گراف پیچیده‌تر (ساب‌گراف یا زیرگراف) می‌سازه.
بعدش واسه این زیرگراف‌ها مسیرهای منطقی (همون زنجیره‌های دلیل و برهانشون) رو درست می‌کنه.
بعد این اطلاعات رو میریزه توی یه دیتاست تازه که توش مدل باید تو ذهنش حسابی brainstorming کنه (یعنی کلی فکرای جورواجور بچینه تا به جواب برسه) و در واقع مدل LLM آموزش میبینه که چه جوری مثل آدم منطقی قدم به قدم فکر کنه.
در آخر هم با یه روشی به اسم rejection sampling (یعنی مرتب نمونه‌های بد رو حذف کنه تا مدل خودشو اصلاح کنه) کاری می‌کنن که دیتاها یه جورایی خودشون مدل رو بهتر و بهتر کنن! اینجا یه عبارت مهم داریم به اسم Direct Preference Optimization یا DPO که یعنی مدل تلاش می‌کنه خودش رو واسه جواب دادن مورد پسندتر کنه.

خلاصه این سیستم KG-o1 رو روی چهار دیتاست مختلف امتحان کردن: دو تا ساده و دو تا پیچیده. جالبه بدونید مدل KG-o1 تو همه‌ی این آزمونا بهتر از بقیه مدل‌های reasoning ظاهر شده و حسابی ترکونده!

در کل هدف KG-o1 اینه که LLMها از این بعد موقع جواب دادن به سوالای زنجیره‌ای و چندمرحله‌ای، سیم‌کشی مغزشون شبیه آدمیزاد باشه و دیگه وسط راه قاطی نکنن! پس دفعه بعدی که دیدید یه چت‌بات هوشمند داره دقیق و حساب‌شده جواب میده، شاید پشت صحنه‌اش یه مدل مثل KG-o1 نشسته باشه که با گراف دانش آمادش کرده‌ن!

منبع: +