احتمالاً تا حالا اسم «توهمات هوش مصنوعی» به گوشت خورده، مثلاً وقتی ChatGPT یا مدلهای مشابهش با اعتماد به نفس کامل یه جواب اشتباه یا حتی مندرآوردی میدن! خب، یه مقاله خیلی باحال از OpenAI تازه منتشر شده که دقیقاً رفته سراغ این سؤال که چرا اصلاً این مدلها اینقدر با اعتماد به نفس اشتباه میزنن.
اول بذار یه توضیح سریع بدم: توهم (یا Hallucination) تو دنیای هوش مصنوعی یعنی وقتی مدل بدون داشتن دلیل واقعی یا مدرک معتبر یه چیز ساختگی تحویل میده؛ مثلاً یه تاریخ تولد اشتباه، یه واقعیت غیرواقعی یا داستانی که فقط تو مغز خودش درست کرده!
نکته اصلی مقاله اینه که مشکل توهمات فقط به دادههای ناقص یا اشتباهِ آموزش مدل خلاصه نمیشه، بلکه این اتفاق از پایه و از روش کار این مدلها میاد و تقریباً غیرقابل حل به شیوه رایج فعلیه. حتی اگه بهترین و تمیزترین دادهها رو به این مدلها بدی، باز هم قراره گهگاهی اشتباه کنن و چیزای بیاساس بگن!
چرا این مشکل پیش میاد؟
سادهاش اینه که مدلهای زبان مثل ChatGPT، جمله رو کلمهبهکلمه پیشبینی میکنن – یعنی هر بار، با توجه به احتمال کلمه بعدی، ادامه جمله رو میسازن. اما موقع این پیشبینیها، خطاها جمع میشن و در کل جمله، درصد خطا دو برابر بیشتر از وقتی میشه که فقط به یه سؤال بلهخیر جواب میدن. واسه همین اشتباهات یا «توهمات» بر اساس خاصیت ذاتی این روش اجتنابناپذیره!
یه نمونه، تولد یکی از نویسندههای همین مقاله بود. محققها از چند مدل پیشرفته درباره تاریخ تولد “Adam Kalai” (که یکی از نویسندههاست) پرسیدن؛ مدل DeepSeek-V3 هم هر دفعه با اطمینان کامل یه جواب قشنگ اشتباه داد: یه بار «03-07»، یه بار «15-06» و حتی یه بار «01-01»! نکته جالب: تاریخ واقعی تولد تو پاییزه، هیچکدوم نزدیکش هم نبود.
از همه بدتر، هرچی کمتر یه حقیقت تو دادههای آموزش ظاهر شه، احتمال اینکه مدل دربارش سوتی بده بیشتر میشه. مثلاً اگه ۲۰٪ تاریخ تولد افراد معروف فقط یه بار تو داده بوده، همونقدر هم مدلها اشتباه درمیان.
مشکل معیارهای ارزیابی: چرا مدلها یاد میگیرن حدس بزنن
یه موضوع جالب دیگه اینه که بعد از آموزش مدل، کلی هم تلاش میشه با بازخورد انسانی (یعنی آدمها میگن جوابهای مدل خوب بود یا نه) این توهمات کمتر شه. اما تو همون مقاله نشون دادن که ۹ تا از ۱۰ معیار ارزیابی معروف – که حتی گوگل و OpenAI و کلی بردهای رتبهبندی معتبر ازشون استفاده میکنن – اگه مدل بگه «نمیدونم»، براش امتیاز صفر در نظر میگیرن! یعنی مدل اگه صادق باشه و بگه «اطلاعی ندارم»، از نظر امتیاز با جوابی که اشتباه کامل داده فرقی نمیکنه! پس چی کار میکنن مدلها؟ یاد میگیرن همیشه حدس بزنن.
اگه قرار باشه اصلاحش کنیم، چی میشه؟
راهحل علمی که OpenAI پیشنهاد داده اینه که بیایم یه سیستم امتیازدهی هوشمندتر بذاریم: مدل باید فقط وقتی جواب بده که واقعاً بالای ۷۵٪ مطمئنه، و هر اشتباه رو حسابی جریمه کنیم. اینطوری اگه مدل مطمئن نباشه، دیگه جواب نمیده و کمتر توهم میزنه.
ولی مشکل اینجاست اگه روزی مثلاً حتی ۳۰٪ سؤالا رو مدل جواب نده و بگه: «نمیدونم» یا «اطمینان ندارم»، تقریباً همه کاربرا ولش میکنن میرن سراغ یه سرویس دیگه! آخه همه عادت کردن که هوش مصنوعی همیشه یه جواب – هرچند نادرست یا عجیب – بده. احتیاج به مدل پر از تردید نداریم!
مشکل بعدی: بحث منابع کامپیوتری و هزینهها
حتی اگه کاربران به جواب نامطمئن عادت کنن، یه سد بزرگ دیگه هست: برای اینکه مدل بتونه بفهمه واقعاً چقدر مطمئنه، باید برای هر سؤال چند حالت مختلف رو بررسی کنه و اطمینان هر کدوم رو تخمین بزنه. این یعنی نسبت به مدلهای معمولی، چندین برابر پردازش و هزینه بیشتر. حالا اینو بذار کنار اینکه ChatGPT و بقیه باید روزانه میلیونها سوال جواب بدن! هزینهاش سر به فلک میکشه.
البته تو بعضی حوزهها مثل مدیریت زنجیره تأمین، معاملات مالی یا حتی تشخیص پزشکی، هزینه اشتباه کردن مدلها اونقدر بالاست که ارزش داره مدلها با خجالت جواب ندن و فقط وقتی مطمئن باشن، نظر بدن – حتی اگه گرونتر تموم شه. اما برای هوش مصنوعی مصرفی که باید سریع و ارزون و همیشه با اعتماد به نفس جواب بده، خیلی زود همه معادلات اقتصادی به هم میریزه.
آخرش چی؟
نتیجهای که مقاله غیرمستقیم میگیره: تا وقتی مدلها رو بر اساس معیارهایی که جواب دادن حتی به قیمت حدس زدن رو تشویق میکنه میسنجیم، و تا وقتی کاربران از مدلها فقط جواب میخوان (و مهم نیست مطمئن یا نامطمئن یا حتی مندرآوردی)، این توهمات قرار نیست برطرف شن.
در واقع تا این تناقض بین انتظارات و واقعیتهای تجاری و فنی حل نشه، هر چقدر هم سختافزارها پیشرفت کنن یا برق ارزون بشه، مدلها هیچ وقت «کامل و بدون توهم» نمیشن.
منبع: +