خب بچهها بیاید یه موضوع جالب تو دنیای هوش مصنوعی رو باهم بررسی کنیم. اگه تا حالا با مدلهای زبانی بزرگ (Large Language Models یا همون LLMها؛ مثلاً ChatGPT) سر و کله زدید احتمالاً متوجه شدید که خیلی چیزارو خوب بلدن، اما وقتی صحبت از سوالهای پیچیده و چندمرحلهای میشه، گاهی قاطی میکنن!
اینجاست که محققای باحال اومدن یه ایده نو دادن به اسم KG-o1. حالا میپرسید این چیه؟ به طور خلاصه، KG مخفف Knowledge Graph هست؛ یعنی «گراف دانش»، یه جور شبکه که داخلش اطلاعات به شکل موجودیتها (مثلاً “برلین” یا “اسکیت بازی”) و رابطههاشون با هم ذخیره میشه. انگار همهی چیزایی که تو مغز ما مرتبط هستن رو کشیدن و وصل کردن بهم!
حالا KG-o1 تلفیق قدرت این گرافهای دانش با مدلهای زبانیه. مشکل اصلی LLMها اینه که زنجیره فکری یا همون Chain of Thought شون توی سوالهای منطقی (یعنی باید چند مرحله فکر کنی تا به جواب برسی) معمولا شبیه قصهپردازیه تا واقعیات! در حالی که تو گراف دانش همه چیز واضح و منطقی وصله.
ولی نکته جالب اینجاست: یه مدل به اسم o1 (که از این مدلای reasoning یا استدلالی هست و بهشون Large Reasoning Models یا LRM گفته میشه) نشون داده که فکر کردن بلندمدت و چندمرحلهای خیلی میتونه به مدلهای زبانی کمک کنه. خلاصه همین ایدهی بلندمدت فکر کردن رو گرفتن و با گراف دانش قاطی کردن و شد KG-o1!
حالا KG-o1 چجوری کار میکنه؟ چهار مرحله داره:
- اول از همه میاد موجودیتهای اصلیِ سوال رو جدا میکنه و بعد باهاشون یک سری گراف پیچیدهتر (سابگراف یا زیرگراف) میسازه.
- بعدش واسه این زیرگرافها مسیرهای منطقی (همون زنجیرههای دلیل و برهانشون) رو درست میکنه.
- بعد این اطلاعات رو میریزه توی یه دیتاست تازه که توش مدل باید تو ذهنش حسابی brainstorming کنه (یعنی کلی فکرای جورواجور بچینه تا به جواب برسه) و در واقع مدل LLM آموزش میبینه که چه جوری مثل آدم منطقی قدم به قدم فکر کنه.
- در آخر هم با یه روشی به اسم rejection sampling (یعنی مرتب نمونههای بد رو حذف کنه تا مدل خودشو اصلاح کنه) کاری میکنن که دیتاها یه جورایی خودشون مدل رو بهتر و بهتر کنن! اینجا یه عبارت مهم داریم به اسم Direct Preference Optimization یا DPO که یعنی مدل تلاش میکنه خودش رو واسه جواب دادن مورد پسندتر کنه.
خلاصه این سیستم KG-o1 رو روی چهار دیتاست مختلف امتحان کردن: دو تا ساده و دو تا پیچیده. جالبه بدونید مدل KG-o1 تو همهی این آزمونا بهتر از بقیه مدلهای reasoning ظاهر شده و حسابی ترکونده!
در کل هدف KG-o1 اینه که LLMها از این بعد موقع جواب دادن به سوالای زنجیرهای و چندمرحلهای، سیمکشی مغزشون شبیه آدمیزاد باشه و دیگه وسط راه قاطی نکنن! پس دفعه بعدی که دیدید یه چتبات هوشمند داره دقیق و حسابشده جواب میده، شاید پشت صحنهاش یه مدل مثل KG-o1 نشسته باشه که با گراف دانش آمادش کردهن!
منبع: +