خب رفقا، میخوام امروز درباره یه آزمایش خیلی جالب براتون حرف بزنم که اومدن دیدن آیا مدلهای زبان بزرگ، یا همون LLMها (Large Language Models یعنی مدلهای کامپیوتری خیلی قوی که میتونن متن بسازن و جواب بدن)، میتونن از پس امتحان ریاضی کنکور ملی قزاقستان (Unified National Testing یا همون UNT) بربیان یا نه! تازه قضیه جالبتر میشه چون این آزمون کلش به زبان روسی بود، نه انگلیسی که معمولاً روی اون مدلها تمرین میشه.
حالا چرا این مهمه؟ چون اکثر تستهایی که برای مدلهای زبانی ساختن، به انگلیسی هست و تا حالا کسی درست بررسی نکرده بود این مدلها تو زبانای کمتر پشتیبانی شده چطوری عمل میکنن. مثلاً یه عالمه آدم فکر میکردن این هوش مصنوعیها با زبان غیراز انگلیسی خیلی ضعیف میشن. ولی خب، بیاید باهم ببینیم آیا واقعاً اینجوریه یا نه!
توی این بررسی، شش تا مدل معروف و جدید (کلود، دیپسیک، جِمینی، لاما، کوئن، و یه مدل دیگه به اسم o) رو روی سوالات چندگزینهای ریاضی کنکور قزاقستان تست کردن. سوالات هم از همه جا بود: جبر، توابع، هندسه، نامعادلات و مثلثات — یعنی دقیقاً از اون سؤالایی که همیشه باهاشون کل داریم!
نویسندهها چندتا روش مختلف تستو امتحان کردن:
۱. اول اومدن مدلها رو گذاشتن بدون توضیح و راهنمایی خاصی، خودشون مستقیم جواب بدن (این یعنی zero-shot performance، یعنی مدل هیچ مثالی قبلش نمیبینه).
۲. بعد کاری کردن که مدلها بتونن از یه ابزار ریاضی به اسم SymPy استفاده کنن تا محاسبات نمادین رو دقیقتر انجام بدن. (SymPy یه کتابخونه پایتون مخصوص محاسبات ریاضی و حل معادلهست.)
۳. در نهایت یه روش نوآورانه دیگه آزمایش شد: یه جور همکاری چندنفره شبیه تیم چندتا هوش مصنوعی، که توش مدلها با هم حرف میزنن، به هم فیدبک میدن و خودشون رو اصلاح میکنن! به این میگن multi-agent refinement framework — یعنی چندتا عامل باهم کار کنن و کار همدیگه رو بهتر کنن.
نتایج خیلی جالب بود! توی حالت zero-shot، مدلهایی مثل DeepSeek و Gemini و Qwen و o تقریباً همه سوالا رو درست جواب دادن یا نزدیک به صد درصد بودن — با اینکه زبان سوالا روسی بود و مدلها معمولا با انگلیسی آموزش دیدن. مدلهای Claude و Llama اما عقبتر بودن و درصد موفقیتشون پایینتر بود.
حالا وقتی SymPy رو به کار گرفتن (یعنی مدلها اجازه داشتن محاسبات ریاضی رو دقیقتر انجام بدن)، دقت Claude و Llama شدیداً بهتر شد.
قسمت جذابتر قضیه زمانی بود که مدلها به صورت تیمی و با تصحیح و همکاری همدیگه جواب دادن. تو این حالت، Claude که اولش زیاد خوب نبود، یهو درصد موفقیتش خیلی زیاد شد و تفاوتش با حالت اول کلی بهتر شد. حتی تو حالت آخر به درصدی رسید که نشون میده هوش مصنوعی با همکاری میتونه خیلی رشد کنه.
خلاصه اینکه این بررسی نشون داد مدلهای زبانی بزرگ میتونن تو زبانهای غیرانگلیسی هم معرکه عمل کنن و برخلاف تصور قبلی، واقعاً تو ریاضیات هم چیزی کم ندارن. اگه این مدلها رو درست و یه کم باهوشتر استفاده کنیم، حتی تو کلاسای دو زبانه یا کشورهایی که به انگلیسی خیلی دسترسی ندارن هم میتونن کمک بزرگی باشن و فرصتهای برابر آموزشی بسازن. یعنی آینده آموزش میتونه با هوش مصنوعی خیلی جذابتر و منصفانهتر باشه!
پس دفعه بعد که فکر کردی فقط انگلیسیها میتونن از هوش مصنوعی استفاده کنن یا مدلها تو زبان ما نمیتونن کاری بکنن، این تحقیق رو یادت بیار 😉
منبع: +