خب بذار یه موضوع جالب بهت بگم که تو دنیای مدرن هوش مصنوعی این روزها خیلی سروصدا کرده! حتماً اسم مدلهای زبانی بزرگ یا همون Large Language Models، که میگیم LLM، مثل ChatGPT یا بقیه شون، به گوشت خورده. این مدلها یه عالمه کار هیجانانگیز بلدن، ولی وقتی قرار میشه با ابزارهای مختلف کار کنن و چیزی رو برات حل کنن، همیشه هم درست ابزار مناسب رو انتخاب نمیکنن!
حالا مشکل کجاست؟ خیلی از سیستمها الان میان کلی ابزار بعد از یه جستجوی معنایی یا همون Semantic Similarity – یعنی فقط به خاطر اینکه متنشون شبیه سؤالیه که ما داریم – میارن بالا. ولی خب این وسط داستان Functional viability، یعنی واقعا اون ابزار کار میکنه یا نه – مثلاً از نظر پارامتر، رمز ورود یا محدودیت اجرا – اصلاً دیده نمیشه! بهش میگن “شکاف معنایی-عملکردی” یا به انگلیسی Semantic-Functional Gap. یعنی یه ابزاری فقط با توضیحاتش به نظر میاد به درد بخوره، ولی عملاً کارشو درست انجام نمیده.
اینجاست که GRETEL وارد میشه! ببین GRETEL یه چارچوب هوشمنده که برای همین انتخاب ابزار راه افتاده. کارش چیه؟ میاد به جای اینکه فقط متن ابزار رو نگاه کنه، واقعاً میره اون ابزارای انتخابی رو تست میکنه. یه جورایی برای هر ابزار یه محیط امن (که بهش میگیم Sandbox، یعنی جایی که میشه بدون خرابکاری همه چی رو امتحان کرد!) درست میکنه. بعد هر ابزارو از نظر اجرایی بودن، درست کار کردن یا نه، و به درد بخور بودن، میسنجه. این پروسه بهش میگن “plan-execute-evaluate cycle”، که یعنی یه برنامه میچینه، اجراش میکنه و نتیجه رو بررسی میکنه.
حالا شاید بگی خب اینا که همه حرف بود، تو عمل GRETEL چی نشون داده؟ این ابزارو روی یک دیتاست به اسم ToolBench تست کردن – یه جور بنچمارک مخصوص انتخاب ابزار. نتیجهها خیلی جالب بودن: نرخ قبولی (Pass Rate) توی انتخاب ۱۰ ابزار از ۰/۶۹ به ۰/۸۲۶ رسیده! یعنی خیلی درصد بیشتری از ابزارهایی که انتخاب شدن واقعاً جواب میدن. مقدار Recall (یعنی چی؟ Recall یعنی چند درصد از کل ابزارای درست واقعاً پیدا شدن) رفت بالا از ۰/۸۴۱ به ۰/۸۶۷. معیار NDCG هم بهتر شد – این یه متریک واسه سنجش کیفیت رتبهبندی ابزاراست – از ۰/۸۰۷ به ۰/۸۵۷.
در کل این مقاله داره نشون میده که برای سیستمهای هوشمندی که باید ابزار انتخاب کنن، اجرای واقعی ابزارها و دیدن کارکردشون به مراتب قابل اعتمادتر از یه شباهت معنایی سادهست. یعنی GRETEL میتونه توی کاربردهای واقعی زندگی، مدلهای هوش مصنوعی رو هوشمندتر و کاربردیتر کنه.
خلاصه داستان: اگه دوست داری یه مدل زبانی هوشمند واقعاً بتونه ابزار درست رو برای کارت پیدا کنه – نه فقط از رو توضیحات قشنگش! – این روش GRETEL میتونه معجزه کنه! 😉
منبع: +