اگه اهل دنیای هوش مصنوعی و ریاضی باشی، احتمالا چند وقت پیش این داستان عجیب رو شنیدی: دمیز حسابیس (مدیرعامل گوگل دیپمایند) توی ایکس (همون توییتر سابق)، به یکی از محققای شرکت رقیب یعنی OpenAI یه جواب کمرشکن داد: “این واقعاً خجالتآوره!”
ماجرا از این قرار بود که سباستین بوبک، محقق اوپنایآی، هیجانزده اعلام کرد مدل جدیدشون یعنی GPT-5، تونسته راهحل ۱۰ تا از مسائل حلنشده دنیای ریاضی رو پیدا کنه! خودش توی پستش نوشته بود “انقلاب علمی با کمک AI رسماً شروع شد!” (همون AI که مخفف هوش مصنوعیه). اما خب… خیلی زود کلک ماجرا رو زدن!
اصلاً این ۱۰ تا مسأله چی بودن؟ اینا مسائل معروفی به اسم “مسائل اردوش” بودن – این اردوش، یکی از غولهای ریاضی قرن ۲۰ بود که صدها معمای حلنشده از خودش جا گذاشت. یه سایت هست به اسم erdosproblems.com که این مسائل رو گردآوری و پیگیری میکنه. تو این سایت الان ۱۱۰۰ تا مسأله هست و حدود ۴۳۰ تاش رسماً حل شدن. اما… هر چی تو این سایت نیست یعنی واقعاً بیجواب مونده؟ نه الزاماً! فقط ممکنه مدیر سایت خبر نداشته.
اصل داستان از اینجا شروع شد که Thomas Bloom (همون کسی که سایت رو اداره میکنه) پاشد به بوبک گیر داد و توی پستش گفت: “این خیلی بزرگنماییه! فقط چون توی سایت من براش راهحل نیست، دلیل نمیشه تو دنیای واقعی حل نشده باشه!”
نتیجه؟ معلوم شد این GPT-5 فقط گشته راهحلهای از قبل موجود رو که بلوم ازشون خبر نداشته، پیدا کرده و آورده. یعنی کشف جدیدی نکرده، بلکه جستوجوی انلاین بوده. اما خب، همین کار هم جالب بود ولی به خاطر آن هیجان کاذب تو شبکههای اجتماعی، نتیجه کمرنگ شد.
این ماجرای “زود خوشحال شدن” درباره هوش مصنوعی دقیقا یه نمونه باحاله از اتفاقاتی که این روزا زیاد تو شبکههای اجتماعی میفته. هر ادعای هیجانانگیزی فوری وایرال میشه و حتی اگه بعدش معلوم شه اشتباه بوده، دیگه اون اثر اولیه رو گذاشته.
فرانسوا شارون، یه محقق که روی کاربرد مدلهای زبانی بزرگ (Large Language Models یا LLMs یعنی مدلهایی که کلی متن خوندن و میتونن درباره هر چیزی حرف بزنن) در ریاضی کار میکنه، میگه همین قابلیت گشتن بین انبوه مقالات ریاضی توسط LLMها هم خودش خیلی خفنه – نه به اندازه کشف جدید ولی باز کاربردیه.
فقط ریاضی نیست ها! همزمان با این درگیریها، دو تا پژوهش جدید هم درباره کاربرد مدلهای زبانی تو پزشکی و حقوق منتشر شد. نتیجهها جالب بود: مدلها گاهی تشخیص پزشکی رو درست میدن، اما تو توصیه درمانی گند میزنن! تو حوزه حقوق هم پژوهشها میگن LLMها خیلی وقتا مشاورههای تناقض دار یا کاملاً غلط میدن. محققها نتیجه گرفتن: “شواهد اصلاً ثابت نمیکنه این مدلها واقعاً کارشون رو بلد باشن.”
ولی کی اهمیتی به این نتیجهها میده؟ مخصوصاً تو فضای شبکههایی مثل ایکس که همه دنبال خبر و ترندهای هیجانانگیز هستن. هرکی میخواد جا نمونه. بحثهای داغ بین آدمایی مثل سم آلتمن و یان لیکان و دیگر غولها اونجا شکل میگیره، و حالا کی حوصله کنه وایسه و تحلیل منطقی بخونه!
بوبک فقط بدشانس بود که اشتباهش لو رفت و مسخره شد. اما کلی از این ادعاهای اغراقآمیز دیگه هم هست که کسی چک نمیکنه. به قول شارون: هم دانشمند هست بین این ادعاکنندهها، هم آدمای غیرعلمی، اما همهشون عاشق جلب توجه هستن! و ادعاهای بزرگ تو این فضاها خیلی خوب گل میکنن.
اما قصه به اینجا ختم نشد! نویسنده این داستان میگه: همه این ماجراها رو که برای نشریه MIT Technology Review نوشتم، دو روز بعدش یه خبر جدید رسید: یه استارتآپ تازه به اسم Axiom با مدل خودش به اسم AxiomProver تونست دو تا از مسائل باز اردوش رو حل کنه (شماره ۱۲۴ و ۴۸۱، واسه طرفدارای جدی ریاضی!)
فقط همین؟ نه! پنج روز بعدش همین مدل AxiomProver موفق شد ۹ تا از ۱۲ مسأله رقابت Putnam رو حل کنه. Putnam یه مسابقه ریاصی دانشگاهیه که میگن حتی بعضی جاها از المپیاد بینالمللی هم سختتره. چند ماه قبل مدلهای اوپنایآی و دیپمایند تو المپیاد ترکوندن. این بار Putnam! معلومه سرعت پیشرفت چقدر وحشتناکه!
تو شبکههای اجتماعی بزرگان هوش مصنوعی مثل جف دین و توماس ولف خیلی به نتیجه AxiomProver واکنش نشون دادن. ولی باز بحث شد: المپیاد روی خلاقیت حل مسأله تاکید داره، Putnam بیشتر دانش ریاضی میخواد. بنابراین برای مدلهای زبانی که اینترنت رو قورت دادن، حل Putnam راحتتره! ولی هنوز معلوم نیست واقعاً این مدلها چقدر “میفهمن” چی کار میکنن یا صرفاً کپیکاری میکنن. ارزیابی واقعی نیاز به کار دقیقتر داره.
درس آخر ماجرا چیه؟ اینکه نباید فقط با دیدن یه پست پر سر و صدا تو ایکس یا هر شبکه دیگه فکر کنیم واقعاً یه انقلاب رخ داده. باید با ذهن باز و دقت بیشتر نگاه کنیم! شاید یه روز مدلهای هوش مصنوعی واقعاً مسائل حلنشده دنیا رو حل کنن، ولی فعلاً همه چی اینقدر قطعی و شگفتانگیز که تو شبکههای اجتماعی میگن نیست.
پ.ن: این داستان اول تو خبرنامه الگوریتم MIT Technology Review چاپ شده بود و اگه دوست داری زودتر از بقیه خبرای باحال رو بخونی، میتونی مشترک بشی!
منبع: +