وقتی هوش مصنوعی ریاضیدونا رو مفتضح کرد! ماجرای یه نبرد مخفی تو کالیفرنیا

ببین، یه داستان خفن برات دارم! وسطای ماه مِی یه جمع خصوصی از ۳۰ تا از بهترین ریاضیدون‌های دنیا دور هم جمع شدن تو برکلی کالیفرنیا. حتی بعضیا از انگلیس کوبیده بودن اومده بودن! اینا دور هم جمع نشده بودن که فقط حرف علمی بزنن، یه چالش عجیب و غریب داشتن: می‌خواستن یه چت‌بات هوش مصنوعی رو با سوالای خاص خودشون شکست بدن! یعنی خودشون مسائل سنگین، سطح استادی و حتی مسئله‌هایی که فقط یه نخبه ریاضی می‌تونه درست کنه رو آماده کرده بودن و دونه دونه انداختن جلو این چت‌بات، ببینن چطور از پسش برمیاد.

اینجا باید یه توضیحی بدم: چت‌بات مورد بحث o4-mini بود، یه نوع LLM (یعنی مدلی از هوش مصنوعی زبانی که می‌تونه متن رو بفهمه و تولید کنه) که OpenAI ساخته. این مدل‌ها معمولاً بر پایه حدس کلمه بعدی کار می‌کنن ولی این یکی یه سر و گردن هوشمندتر و خاص‌تره، چون علاوه‌بر اون از داده‌ها و ریویو‌های تخصصی‌تر هم تغذیه شده و کلی تقویت انسان روش انجام شده. تقویت با بازخورد انسانی یعنی موقع آموزش، آدما جواب‌های مدل رو بررسی می‌کنن و بهش نمره میدن که بهتر و دقیق‌تر یاد بگیره.

گوگل هم یه مدل مشابه داره به اسم Gemini 2.5 Flash. اینا نسل جدید LLMها هستن که نه تنها سبک‌تر و سریع‌ترن، بلکه اونقدر باهوشن که می‌تونن تو مسائل پیچیده، استدلال منطقی قوی از خودشون نشون بدن. یعنی برعکس مدل‌های قبلی که فقط ظاهراً جمله رو می‌فهمیدن، اینا واقعاً می‌تونن مسئله رو تحلیل کنن و حل کنن — مخصوصاً در ریاضی که خیلی به منطق نیاز داره.

خلاصه، OpenAI با همکاری یه سازمان غیرانتفاعی به اسم Epoch AI (که کارش ارزیابی LLMهاست)، یه سری سوال درست کردن؛ دقیقاً ۳۰۰ تا سوال ریاضی که تا اون زمان جواب رسمیش هیچ جا منتشر نشده بود. هدف این بود ببینن کدوم مدل واقعاً می‌تونه از پس سوالایی که «بهش آموزش داده نشده» بر بیاد. مدل‌های قبلی تو بهترین حالت کمتر از ۲٪ از این سوالا رو تونستن جواب بدن؛ یعنی معلومه که هوش استدلال براشون مشکل‌ساز بود.

ولی وقتی نوبت o4-mini شد، همه جا ریخت به هم! مثلاً، تا آوریل ۲۰۲۵، o4-mini تونست حدود ۲۰ درصد از این سوالای پیچیده و عجیب رو حل کنه! باور کن خیلی رقم بالاییه.

بعد رفتن سراغ یه چالش خفن‌تر. Epoch AI، الیوت گلیزر — یه کسی که دکتراشو تازه تو ریاضی گرفته بود — رو آورد تا پروژه FrontierMath رو راه بندازه. این پروژه سوال‌های جدیدی تو سطوح مختلف جمع کرد: از لیسانس و فوق‌لیسانس و سطح پژوهش واقعی. از اون جالب‌تر، مرحله چهارم یعنی یه سری سوالات که حتی برای ریاضیدونای حرفه‌ای هم رویا بود! حتی جمع‌آوری و فکر کردن به این سوالا اینقدر حساس و مخفیانه بود که همه مجبور بودن یه قرارداد امضا کنن و فقط از طریق اپلیکیشن سیگنال با هم حرف بزنن — چون اگر تو ایمیل یا جاهای عمومی بحث می‌کردن، امکان داشت سوال در آموزش مدل‌ها به کار بره و سیستم لو بره!

یه جور مسابقه هم بود: هر کسی بتونه سوالی طراحی کنه که این هوش مصنوعی نتونه جواب بده، ۷۵۰۰ دلار جایزه می‌گرفت! البته پیدا کردن همچین سوالایی خودش دردسر وحشتناک داشت و پیشرفت کند بود. واسه همین تو ۱۷ و ۱۸ مِی یه جلسه حضوری تو برکلی گذاشتن که شرکت‌کننده‌ها (که تو گروهای شش‌تایی تقسیم شده بودن) دو روز تموم سعی کنن انواع سوالایی که خودشون بلدن حل کنن، اما AI رو گیر بندازن، طراحی کنن.

شب اول جلسه، کن اونُ (Ken Ono)، یه ریاضیدون شناخته‌شده از دانشگاه ویرجینیا و از داورای اصلی این پروژه، حسابی کفری شده بود. خودش تعریف می‌کنه: “یه مسأله‌ای طرح کردم که برای اهالی فیلد من، تو نظریه اعداد (Number Theory یعنی شاخه‌ای از ریاضی که بیشتر در مورد اعداد صحیح و ویژگی‌هاشونه) جزء سوالای باز و سطح دکترا حساب می‌شه. به o4-mini دادم، با خودم گفتم حالا ببین چقدر توش می‌مونه!”

ولی این هوش مصنوعی در عرض ده دقیقه یه جواب کامل، مرحله‌به‌مرحله و حتی با نوشتن روند فکر کردنش (دقیقاً مثل یه دانشجوی خیلی زرنگ یا حتی بیشتر) حلش کرد! جالب‌تر اینکه مدل اول رفت مقالات مشابه اون موضوع رو از دل اینترنت درددقیقه خوند و فهمید، بعد نوشت: “بذار اول یه ورژن ساده‌ترشو حل کنم که ایده بگیرم.” بعد که کلی کیف کرد و مطمئن شد، سراغ خود سوال اصلی اومد و فقط تو پنج دقیقه، یه جواب صحیح و حتی با کمی شوخی نوشت: “نیازی به رفرنس نیست؛ چون عدد مرموز رو خودم حساب کردم!”

کن اونُ می‌گفت: “من تا حالا چنین استدلالی از یه مدل زبانی ندیده بودم. واقعاً وحشت‌انگیز بود.”

صبح فرداش، کن فوراً تو سیگنال به همه هشدار داد که این مدل از هرچیزی که فکرشو می‌کنید باهوش‌تره و حتی رفتار و روند حل مسأله‌ش مثل یه دانشمند واقعی بود.

با همه این داستانا، در نهایت تونستن فقط ۱۰ تا سوال پیدا کنن که AI رو واقعاً گیر بندازه و نتونه حلشون کنه — اونم بین ۳۰ تا از اول ریاضیدونای دنیا! خود شرکت‌کننده‌ها باورشون نمی‌شد چقدر این تکنولوژی تو یه سال گذشته پیشرفت کرده. مثلاً یانگ‌هویی هِه (Yang Hui He)، ریاضیدون مؤسسه لندن، می‌گفت: “این سطح، کار یه دانشجوی فوق‌العاده هم نیست، حتی فراتره.”

یه بخش دیگه‌ش هم سرعتشه: همین هوش مصنوعی مسائلی رو تو چند دقیقه حل می‌کنه که آدم باید روش هفته‌ها یا ماه‌ها وقت بذاره!

البته این هوش و سرعت یه ترسی هم تو دل خیلیا انداخته بود. اونا می‌گفتن ممکنه مردم یا ریاضیدونا زیادی به جوابای AI اعتماد کنن — طوری که کمتر کسی جرات داره جوابش رو زیر سوال ببره. اصطلاحاً می‌گن: اثبات با القای ترس! یعنی چون مدل با اعتماد به نفس کامل حرف می‌زنه، کسی نمی‌تونه جوابش رو به راحتی نقد کنه، حتی اگه اشتباه باشه.

اواخر جلسه، شرکت‌کننده‌ها شروع کردن به فکر کردن به آینده: وقتی AI بتونه حتی مسائلی رو حل کنه که بهترین ریاضیدونا هم از پسش برنمیان (یه جورایی مرحله پنجم)، نقش ریاضیدون عملاً عوض می‌شه. ممکنه آینده اینطوری باشه که آدمای متخصص فقط سوال‌های جدید مطرح کنن و جواب رو هوش مصنوعی بهشون بده — یه چیزی مثل رابطه استاد با دانشجوی تحصیلات تکمیلی!

خلاصه اینکه کن اونُ معتقده: باید خلاقیت و ایده‌پردازی رو به دانشجوها یاد بدیم، چون ظاهراً حل مکانیکی مسائل رو AI خیلی زود بهتر از ما انجام می‌ده. خودش می‌گه: “به همکارام گفتم بزرگ‌ترین اشتباه اینه که بگیم هوش مصنوعی عمومی هیچ‌وقت نمیاد یا فقط یه برنامه‌ست. بدون اغراق، همین الان این مدل‌های زبانی بهتر از اکثر دانشجویان دکترا و فوق‌لیسانس ما هستن.”

پس دفعه بعد که دیدی یه هوش مصنوعی داره با کلاس حل مسائل ریاضی می‌کنه، یادت بیاد پشتش چه اتفاقات و رقابت‌هایی افتاده و چقدر سریع داره پیشرفت می‌کنه!

منبع: +