ببین، یه داستان خفن برات دارم! وسطای ماه مِی یه جمع خصوصی از ۳۰ تا از بهترین ریاضیدونهای دنیا دور هم جمع شدن تو برکلی کالیفرنیا. حتی بعضیا از انگلیس کوبیده بودن اومده بودن! اینا دور هم جمع نشده بودن که فقط حرف علمی بزنن، یه چالش عجیب و غریب داشتن: میخواستن یه چتبات هوش مصنوعی رو با سوالای خاص خودشون شکست بدن! یعنی خودشون مسائل سنگین، سطح استادی و حتی مسئلههایی که فقط یه نخبه ریاضی میتونه درست کنه رو آماده کرده بودن و دونه دونه انداختن جلو این چتبات، ببینن چطور از پسش برمیاد.
اینجا باید یه توضیحی بدم: چتبات مورد بحث o4-mini بود، یه نوع LLM (یعنی مدلی از هوش مصنوعی زبانی که میتونه متن رو بفهمه و تولید کنه) که OpenAI ساخته. این مدلها معمولاً بر پایه حدس کلمه بعدی کار میکنن ولی این یکی یه سر و گردن هوشمندتر و خاصتره، چون علاوهبر اون از دادهها و ریویوهای تخصصیتر هم تغذیه شده و کلی تقویت انسان روش انجام شده. تقویت با بازخورد انسانی یعنی موقع آموزش، آدما جوابهای مدل رو بررسی میکنن و بهش نمره میدن که بهتر و دقیقتر یاد بگیره.
گوگل هم یه مدل مشابه داره به اسم Gemini 2.5 Flash. اینا نسل جدید LLMها هستن که نه تنها سبکتر و سریعترن، بلکه اونقدر باهوشن که میتونن تو مسائل پیچیده، استدلال منطقی قوی از خودشون نشون بدن. یعنی برعکس مدلهای قبلی که فقط ظاهراً جمله رو میفهمیدن، اینا واقعاً میتونن مسئله رو تحلیل کنن و حل کنن — مخصوصاً در ریاضی که خیلی به منطق نیاز داره.
خلاصه، OpenAI با همکاری یه سازمان غیرانتفاعی به اسم Epoch AI (که کارش ارزیابی LLMهاست)، یه سری سوال درست کردن؛ دقیقاً ۳۰۰ تا سوال ریاضی که تا اون زمان جواب رسمیش هیچ جا منتشر نشده بود. هدف این بود ببینن کدوم مدل واقعاً میتونه از پس سوالایی که «بهش آموزش داده نشده» بر بیاد. مدلهای قبلی تو بهترین حالت کمتر از ۲٪ از این سوالا رو تونستن جواب بدن؛ یعنی معلومه که هوش استدلال براشون مشکلساز بود.
ولی وقتی نوبت o4-mini شد، همه جا ریخت به هم! مثلاً، تا آوریل ۲۰۲۵، o4-mini تونست حدود ۲۰ درصد از این سوالای پیچیده و عجیب رو حل کنه! باور کن خیلی رقم بالاییه.
بعد رفتن سراغ یه چالش خفنتر. Epoch AI، الیوت گلیزر — یه کسی که دکتراشو تازه تو ریاضی گرفته بود — رو آورد تا پروژه FrontierMath رو راه بندازه. این پروژه سوالهای جدیدی تو سطوح مختلف جمع کرد: از لیسانس و فوقلیسانس و سطح پژوهش واقعی. از اون جالبتر، مرحله چهارم یعنی یه سری سوالات که حتی برای ریاضیدونای حرفهای هم رویا بود! حتی جمعآوری و فکر کردن به این سوالا اینقدر حساس و مخفیانه بود که همه مجبور بودن یه قرارداد امضا کنن و فقط از طریق اپلیکیشن سیگنال با هم حرف بزنن — چون اگر تو ایمیل یا جاهای عمومی بحث میکردن، امکان داشت سوال در آموزش مدلها به کار بره و سیستم لو بره!
یه جور مسابقه هم بود: هر کسی بتونه سوالی طراحی کنه که این هوش مصنوعی نتونه جواب بده، ۷۵۰۰ دلار جایزه میگرفت! البته پیدا کردن همچین سوالایی خودش دردسر وحشتناک داشت و پیشرفت کند بود. واسه همین تو ۱۷ و ۱۸ مِی یه جلسه حضوری تو برکلی گذاشتن که شرکتکنندهها (که تو گروهای ششتایی تقسیم شده بودن) دو روز تموم سعی کنن انواع سوالایی که خودشون بلدن حل کنن، اما AI رو گیر بندازن، طراحی کنن.
شب اول جلسه، کن اونُ (Ken Ono)، یه ریاضیدون شناختهشده از دانشگاه ویرجینیا و از داورای اصلی این پروژه، حسابی کفری شده بود. خودش تعریف میکنه: “یه مسألهای طرح کردم که برای اهالی فیلد من، تو نظریه اعداد (Number Theory یعنی شاخهای از ریاضی که بیشتر در مورد اعداد صحیح و ویژگیهاشونه) جزء سوالای باز و سطح دکترا حساب میشه. به o4-mini دادم، با خودم گفتم حالا ببین چقدر توش میمونه!”
ولی این هوش مصنوعی در عرض ده دقیقه یه جواب کامل، مرحلهبهمرحله و حتی با نوشتن روند فکر کردنش (دقیقاً مثل یه دانشجوی خیلی زرنگ یا حتی بیشتر) حلش کرد! جالبتر اینکه مدل اول رفت مقالات مشابه اون موضوع رو از دل اینترنت درددقیقه خوند و فهمید، بعد نوشت: “بذار اول یه ورژن سادهترشو حل کنم که ایده بگیرم.” بعد که کلی کیف کرد و مطمئن شد، سراغ خود سوال اصلی اومد و فقط تو پنج دقیقه، یه جواب صحیح و حتی با کمی شوخی نوشت: “نیازی به رفرنس نیست؛ چون عدد مرموز رو خودم حساب کردم!”
کن اونُ میگفت: “من تا حالا چنین استدلالی از یه مدل زبانی ندیده بودم. واقعاً وحشتانگیز بود.”
صبح فرداش، کن فوراً تو سیگنال به همه هشدار داد که این مدل از هرچیزی که فکرشو میکنید باهوشتره و حتی رفتار و روند حل مسألهش مثل یه دانشمند واقعی بود.
با همه این داستانا، در نهایت تونستن فقط ۱۰ تا سوال پیدا کنن که AI رو واقعاً گیر بندازه و نتونه حلشون کنه — اونم بین ۳۰ تا از اول ریاضیدونای دنیا! خود شرکتکنندهها باورشون نمیشد چقدر این تکنولوژی تو یه سال گذشته پیشرفت کرده. مثلاً یانگهویی هِه (Yang Hui He)، ریاضیدون مؤسسه لندن، میگفت: “این سطح، کار یه دانشجوی فوقالعاده هم نیست، حتی فراتره.”
یه بخش دیگهش هم سرعتشه: همین هوش مصنوعی مسائلی رو تو چند دقیقه حل میکنه که آدم باید روش هفتهها یا ماهها وقت بذاره!
البته این هوش و سرعت یه ترسی هم تو دل خیلیا انداخته بود. اونا میگفتن ممکنه مردم یا ریاضیدونا زیادی به جوابای AI اعتماد کنن — طوری که کمتر کسی جرات داره جوابش رو زیر سوال ببره. اصطلاحاً میگن: اثبات با القای ترس! یعنی چون مدل با اعتماد به نفس کامل حرف میزنه، کسی نمیتونه جوابش رو به راحتی نقد کنه، حتی اگه اشتباه باشه.
اواخر جلسه، شرکتکنندهها شروع کردن به فکر کردن به آینده: وقتی AI بتونه حتی مسائلی رو حل کنه که بهترین ریاضیدونا هم از پسش برنمیان (یه جورایی مرحله پنجم)، نقش ریاضیدون عملاً عوض میشه. ممکنه آینده اینطوری باشه که آدمای متخصص فقط سوالهای جدید مطرح کنن و جواب رو هوش مصنوعی بهشون بده — یه چیزی مثل رابطه استاد با دانشجوی تحصیلات تکمیلی!
خلاصه اینکه کن اونُ معتقده: باید خلاقیت و ایدهپردازی رو به دانشجوها یاد بدیم، چون ظاهراً حل مکانیکی مسائل رو AI خیلی زود بهتر از ما انجام میده. خودش میگه: “به همکارام گفتم بزرگترین اشتباه اینه که بگیم هوش مصنوعی عمومی هیچوقت نمیاد یا فقط یه برنامهست. بدون اغراق، همین الان این مدلهای زبانی بهتر از اکثر دانشجویان دکترا و فوقلیسانس ما هستن.”
پس دفعه بعد که دیدی یه هوش مصنوعی داره با کلاس حل مسائل ریاضی میکنه، یادت بیاد پشتش چه اتفاقات و رقابتهایی افتاده و چقدر سریع داره پیشرفت میکنه!
منبع: +