آیا هوش مصنوعی‌ها می‌تونن تو کنکور ریاضی قزاقستان قبول شن؟ بررسی عملکرد مدل‌های زبانی بزرگ

خب رفقا، می‌خوام امروز درباره یه آزمایش خیلی جالب براتون حرف بزنم که اومدن دیدن آیا مدل‌های زبان بزرگ، یا همون LLMها (Large Language Models یعنی مدل‌های کامپیوتری خیلی قوی که می‌تونن متن بسازن و جواب بدن)، می‌تونن از پس امتحان ریاضی کنکور ملی قزاقستان (Unified National Testing یا همون UNT) بربیان یا نه! تازه قضیه جالب‌تر میشه چون این آزمون کلش به زبان روسی بود، نه انگلیسی که معمولاً روی اون مدل‌ها تمرین میشه.

حالا چرا این مهمه؟ چون اکثر تست‌هایی که برای مدل‌های زبانی ساختن، به انگلیسی هست و تا حالا کسی درست بررسی نکرده بود این مدل‌ها تو زبانای کم‌تر پشتیبانی شده چطوری عمل می‌کنن. مثلاً یه عالمه آدم فکر می‌کردن این هوش مصنوعی‌ها با زبان غیراز انگلیسی خیلی ضعیف می‌شن. ولی خب، بیاید باهم ببینیم آیا واقعاً اینجوریه یا نه!

توی این بررسی، شش تا مدل معروف و جدید (کلود، دیپ‌سیک، جِمینی، لاما، کوئن، و یه مدل دیگه به اسم o) رو روی سوالات چندگزینه‌ای ریاضی کنکور قزاقستان تست کردن. سوالات هم از همه جا بود: جبر، توابع، هندسه، نامعادلات و مثلثات — یعنی دقیقاً از اون سؤالایی که همیشه باهاشون کل داریم!

نویسنده‌ها چندتا روش مختلف تستو امتحان کردن:
۱. اول اومدن مدل‌ها رو گذاشتن بدون توضیح و راهنمایی خاصی، خودشون مستقیم جواب بدن (این یعنی zero-shot performance، یعنی مدل هیچ مثالی قبلش نمی‌بینه).
۲. بعد کاری کردن که مدل‌ها بتونن از یه ابزار ریاضی به اسم SymPy استفاده کنن تا محاسبات نمادین رو دقیق‌تر انجام بدن. (SymPy یه کتابخونه پایتون مخصوص محاسبات ریاضی و حل معادله‌ست.)
۳. در نهایت یه روش نوآورانه دیگه آزمایش شد: یه جور همکاری چندنفره شبیه تیم چندتا هوش مصنوعی، که توش مدل‌ها با هم حرف می‌زنن، به هم فیدبک می‌دن و خودشون رو اصلاح می‌کنن! به این می‌گن multi-agent refinement framework — یعنی چندتا عامل باهم کار کنن و کار همدیگه رو بهتر کنن.

نتایج خیلی جالب بود! توی حالت zero-shot، مدل‌هایی مثل DeepSeek و Gemini و Qwen و o تقریباً همه سوالا رو درست جواب دادن یا نزدیک به صد درصد بودن — با اینکه زبان سوالا روسی بود و مدل‌ها معمولا با انگلیسی آموزش دیدن. مدل‌های Claude و Llama اما عقب‌تر بودن و درصد موفقیت‌شون پایین‌تر بود.

حالا وقتی SymPy رو به کار گرفتن (یعنی مدل‌ها اجازه داشتن محاسبات ریاضی رو دقیق‌تر انجام بدن)، دقت Claude و Llama شدیداً بهتر شد.

قسمت جذاب‌تر قضیه زمانی بود که مدل‌ها به صورت تیمی و با تصحیح و همکاری همدیگه جواب دادن. تو این حالت، Claude که اولش زیاد خوب نبود، یهو درصد موفقیتش خیلی زیاد شد و تفاوتش با حالت اول کلی بهتر شد. حتی تو حالت آخر به درصدی رسید که نشون می‌ده هوش مصنوعی با همکاری می‌تونه خیلی رشد کنه.

خلاصه اینکه این بررسی نشون داد مدل‌های زبانی بزرگ می‌تونن تو زبان‌های غیرانگلیسی هم معرکه عمل کنن و برخلاف تصور قبلی، واقعاً تو ریاضیات هم چیزی کم ندارن. اگه این مدل‌ها رو درست و یه کم باهوش‌تر استفاده کنیم، حتی تو کلاسای دو زبانه یا کشورهایی که به انگلیسی خیلی دسترسی ندارن هم می‌تونن کمک بزرگی باشن و فرصت‌های برابر آموزشی بسازن. یعنی آینده آموزش می‌تونه با هوش مصنوعی خیلی جذاب‌تر و منصفانه‌تر باشه!

پس دفعه بعد که فکر کردی فقط انگلیسی‌ها می‌تونن از هوش مصنوعی استفاده کنن یا مدل‌ها تو زبان ما نمی‌تونن کاری بکنن، این تحقیق رو یادت بیار 😉

منبع: +