GRETEL چیه؟ ابزاری هوشمند واسه انتخاب ابزار درست توسط مدل‌های زبانی بزرگ!

Fall Back

خب بذار یه موضوع جالب بهت بگم که تو دنیای مدرن هوش مصنوعی این روزها خیلی سروصدا کرده! حتماً اسم مدل‌های زبانی بزرگ یا همون Large Language Models، که میگیم LLM، مثل ChatGPT یا بقیه شون، به گوشت خورده. این مدل‌ها یه عالمه کار هیجان‌انگیز بلدن، ولی وقتی قرار میشه با ابزارهای مختلف کار کنن و چیزی رو برات حل کنن، همیشه هم درست ابزار مناسب رو انتخاب نمی‌کنن!

حالا مشکل کجاست؟ خیلی از سیستم‌ها الان میان کلی ابزار بعد از یه جستجوی معنایی یا همون Semantic Similarity – یعنی فقط به خاطر اینکه متنشون شبیه سؤالیه که ما داریم – میارن بالا. ولی خب این وسط داستان Functional viability، یعنی واقعا اون ابزار کار میکنه یا نه – مثلاً از نظر پارامتر، رمز ورود یا محدودیت اجرا – اصلاً دیده نمیشه! بهش میگن “شکاف معنایی-عملکردی” یا به انگلیسی Semantic-Functional Gap. یعنی یه ابزاری فقط با توضیحاتش به نظر میاد به درد بخوره، ولی عملاً کارشو درست انجام نمیده.

اینجاست که GRETEL وارد میشه! ببین GRETEL یه چارچوب هوشمنده که برای همین انتخاب ابزار راه افتاده. کارش چیه؟ میاد به جای اینکه فقط متن ابزار رو نگاه کنه، واقعاً میره اون ابزارای انتخابی رو تست می‌کنه. یه جورایی برای هر ابزار یه محیط امن (که بهش میگیم Sandbox، یعنی جایی که میشه بدون خرابکاری همه چی رو امتحان کرد!) درست می‌کنه. بعد هر ابزارو از نظر اجرایی بودن، درست کار کردن یا نه، و به درد بخور بودن، می‌سنجه. این پروسه بهش میگن “plan-execute-evaluate cycle”، که یعنی یه برنامه میچینه، اجراش میکنه و نتیجه رو بررسی می‌کنه.

حالا شاید بگی خب اینا که همه حرف بود، تو عمل GRETEL چی نشون داده؟ این ابزارو روی یک دیتاست به اسم ToolBench تست کردن – یه جور بنچمارک مخصوص انتخاب ابزار. نتیجه‌ها خیلی جالب بودن: نرخ قبولی (Pass Rate) توی انتخاب ۱۰ ابزار از ۰/۶۹ به ۰/۸۲۶ رسیده! یعنی خیلی درصد بیشتری از ابزارهایی که انتخاب شدن واقعاً جواب میدن. مقدار Recall (یعنی چی؟ Recall یعنی چند درصد از کل ابزارای درست واقعاً پیدا شدن) رفت بالا از ۰/۸۴۱ به ۰/۸۶۷. معیار NDCG هم بهتر شد – این یه متریک واسه سنجش کیفیت رتبه‌بندی ابزاراست – از ۰/۸۰۷ به ۰/۸۵۷.

در کل این مقاله داره نشون میده که برای سیستم‌های هوشمندی که باید ابزار انتخاب کنن، اجرای واقعی ابزارها و دیدن کارکردشون به مراتب قابل اعتمادتر از یه شباهت معنایی ساده‌ست. یعنی GRETEL میتونه توی کاربردهای واقعی زندگی، مدل‌های هوش مصنوعی رو هوشمندتر و کاربردی‌تر کنه.

خلاصه داستان: اگه دوست داری یه مدل زبانی هوشمند واقعاً بتونه ابزار درست رو برای کارت پیدا کنه – نه فقط از رو توضیحات قشنگش! – این روش GRETEL می‌تونه معجزه کنه! 😉

منبع: +