اگه اهل هوش مصنوعی (AI) و مدلهای بزرگ زبانی (LLMs مثل ChatGPT و رفقاش) باشی، احتمالاً اسم پروژه TroVE رو شنیدی. این پروژه تلاش داشت مدلهای زبانی رو مثل بچههای زرنگ دبیرستان تو حل مسائل ریاضی حرفهایتر کنه. میخوام خلاصه و غیررسمی برات بگم چه خبره و آخرش چی معلوم شده!
اول همه بدون، لذت حل مسائل ریاضی اینه که هی تئوری و فرمول ثابتشده رو برمیداری، روی هم میذاری و باهاشون معماهای سختتر رو حل میکنی. این قضیه مخصوصاً واسه مدلهای هوشمند هم مهمه.
حالا این TroVE چی بود؟ اومده بود سه تا تکنیک رو با هم قاطی کنه: ۱. مستقیم کد بنویسه واسه راهحل، ۲. ابزارهای کوچیک درست کنه (مثلاً یه تیکه کد که بعداً توی حلهای دیگه استفاده کنه)، ۳. همین ابزارها رو مجدداً به کار ببره.
این وسط MATH یه آزمون چالشی واسه مدلهای هوش مصنوعیه که ببینن چقدر تو ریاضی شیرینکاری بلدن. TroVE ادعا کرد که با این تکنیک ابزارکسازی از مدل سادهتر یعنی PRIMITIVE (که فقط مستقیم کد حل مسئله مینوشته) خیلی بهتر نتیجه میگیره.
ولی دست نگه دار! یه گروه دیگه (Berlot-Attwell و همکارانش سال ۲۰۲۴) از نزدیک رفتن کار TroVE رو بررسی کردن. فهمیدن بخش زیادی از این پیشرفتها اصلاً به خاطر اون ابزارهای جذاب نیست. بیشتر ابزارهایی که TroVE میسازه یا خیلی سادهان (مثلاً انگار ۲+۲=۴ رو دوباره اختراع کرده) یا انقدر کم استفاده میشن که بودن یا نبودنشون فرقی نمیکرد.
پس جریان چی بود؟ محققای جدید اومدن خودشون TroVE رو دوباره با دقت تست کردن (دقیقاً همون منابع محاسباتی = compute رو به هر دو مدل دادن که قیاسشون منصفانه باشه). خلاصه اینکه پیشرفتی که TroVE نشون داده بود بیشتر به این دلیل بود که حسابی براش وقت و انرژی و پردازش بیشتری صرف شده بود نه بخاطر اون جعبه ابزار ادعایی!
تازه جسارتاً، یه اشکال کوچیک هم توی کد TroVE پیدا کرده بودن که وقتی اصلاحش کردن، دقت TroVE توی آزمون MATH سه درصد بالاتر رفت (یعنی accuracy از قبلی بهتر شد).
اما نکته مهمتر رو بگم: وقتی زمان و توان محاسباتی اختصاصدادهشده به PRIMITIVE و TroVE رو مساوی کردن، اختلاف دقیقشون اونقدرها هم نبود! یعنی TroVE فقط یک درصد بهتر جواب داد. پس کل اون هیجان جعبهابزارسازی توی این مسئله حداقل، زیاد کار شاقی انجام نداده.
جمعبندی رفیقانه: دفعه بعد اگه کسی گفت با ابزارسازی و reuse توی مدلهای زبان میشه توی ریاضی معجزه کرد، ازش دقیق بپرس چی میگه و آیا واقعاً تست کمپیوترهاشون منصفانه بوده یا نه! خلاصه هیجان TroVE بیشتر از واقعیتش بوده و به نظر میرسه هنوز راه زیادی مونده تا مدلها این طوری بتونن زنجیرهای و حرفهای از ترفندهاشون استفاده کنن؛ فعلاً بیشتر روی قدرت سختافزاری حساب کن تا «نوآوری» فرمولبندی.
منبع: +