نقدی خودمونی به پروژه TroVE: واقعاً این همه سر و صدا ارزششو داشت؟

اگه اهل هوش مصنوعی (AI) و مدل‌های بزرگ زبانی (LLMs مثل ChatGPT و رفقاش) باشی، احتمالاً اسم پروژه TroVE رو شنیدی. این پروژه تلاش داشت مدل‌های زبانی رو مثل بچه‌های زرنگ دبیرستان تو حل مسائل ریاضی حرفه‌ای‌تر کنه. میخوام خلاصه و غیررسمی برات بگم چه خبره و آخرش چی معلوم شده!

اول همه بدون، لذت حل مسائل ریاضی اینه که هی تئوری و فرمول ثابت‌شده رو برمیداری، روی هم می‌ذاری و باهاشون معماهای سخت‌تر رو حل می‌کنی. این قضیه مخصوصاً واسه مدل‌های هوشمند هم مهمه.

حالا این TroVE چی بود؟ اومده بود سه تا تکنیک رو با هم قاطی کنه: ۱. مستقیم کد بنویسه واسه راه‌حل، ۲. ابزارهای کوچیک درست کنه (مثلاً یه تیکه کد که بعداً توی حل‌های دیگه استفاده کنه)، ۳. همین ابزارها رو مجدداً به کار ببره.

این وسط MATH یه آزمون چالشی واسه مدل‌های هوش مصنوعیه که ببینن چقدر تو ریاضی شیرین‌کاری بلدن. TroVE ادعا کرد که با این تکنیک ابزارک‌سازی از مدل ساده‌تر یعنی PRIMITIVE (که فقط مستقیم کد حل مسئله می‌نوشته) خیلی بهتر نتیجه می‌گیره.

ولی دست نگه دار! یه گروه دیگه (Berlot-Attwell و همکارانش سال ۲۰۲۴) از نزدیک رفتن کار TroVE رو بررسی کردن. فهمیدن بخش زیادی از این پیشرفت‌ها اصلاً به خاطر اون ابزارهای جذاب نیست. بیشتر ابزارهایی که TroVE می‌سازه یا خیلی ساده‌ان (مثلاً انگار ۲+۲=۴ رو دوباره اختراع کرده) یا انقدر کم استفاده میشن که بودن یا نبودنشون فرقی نمی‌کرد.

پس جریان چی بود؟ محققای جدید اومدن خودشون TroVE رو دوباره با دقت تست کردن (دقیقاً همون منابع محاسباتی = compute رو به هر دو مدل دادن که قیاسشون منصفانه باشه). خلاصه اینکه پیشرفتی که TroVE نشون داده بود بیشتر به این دلیل بود که حسابی براش وقت و انرژی و پردازش بیشتری صرف شده بود نه بخاطر اون جعبه ابزار ادعایی!

تازه جسارتاً، یه اشکال کوچیک هم توی کد TroVE پیدا کرده بودن که وقتی اصلاحش کردن، دقت TroVE توی آزمون MATH سه درصد بالاتر رفت (یعنی accuracy از قبلی بهتر شد).

اما نکته مهم‌تر رو بگم: وقتی زمان و توان محاسباتی اختصاص‌داده‌شده به PRIMITIVE و TroVE رو مساوی کردن، اختلاف دقیقشون اونقدرها هم نبود! یعنی TroVE فقط یک درصد بهتر جواب داد. پس کل اون هیجان جعبه‌ابزارسازی توی این مسئله حداقل، زیاد کار شاقی انجام نداده.

جمع‌بندی رفیقانه: دفعه بعد اگه کسی گفت با ابزارسازی و reuse توی مدل‌های زبان میشه توی ریاضی معجزه کرد، ازش دقیق بپرس چی میگه و آیا واقعاً تست کمپیوترهاشون منصفانه بوده یا نه! خلاصه هیجان TroVE بیشتر از واقعیتش بوده و به نظر می‌رسه هنوز راه زیادی مونده تا مدل‌ها این طوری بتونن زنجیره‌ای و حرفه‌ای از ترفندهاشون استفاده کنن؛ فعلاً بیشتر روی قدرت سخت‌افزاری حساب کن تا «نوآوری» فرمول‌بندی.

منبع: +