خب بچهها، بذارین یه خبر داغ از دنیای هوش مصنوعی براتون تعریف کنم! همونطور که خیلیاتون میدونین، OpenAI که همون شرکت معروف سازنده ChatGPT هست، به تازگی ChatGPT-5 رو معرفی کرده و کلی هم سر و صدا راه انداختن که این مدل جدید از قبلیا خیلی باهوشتر و قویتر شده. حتی سم آلتمن (سم آلتمن مدیرعامل OpenAI هست، یکی از چهرههای معروف تو دنیای هوش مصنوعی) گفته بود ChatGPT-5 سریعترین و مطمئنترین نسخهایه که تا حالا ساختن و مخصوصاً قول داده بودن این یکی دیگه کمتر هزیون بگه.
این واژه هزیون یا همون “hallucination” یعنی چی؟ تو دنیای مدلهای زبونی بزرگ (LLM)، وقتی یه مدل یه چیزی رو از خودش درمیاره که اصلاً واقعیت نداره و الکیه، بهش میگن هزیون یا hallucination. مثلاً یه سوال ساده از چتجیپیتی میپرسی، بعد اون جواب رو با اطمینان برات مینویسه ولی کاملا اشتباهه! هنوزم این مشکل تو دنیای AI خیلی رایجه و باعث میشه نتونیم صددرصد به این مدلها بدون نظارت انسانی اعتماد کنیم.
حالا یه شرکت به اسم Vectara که کارش بررسی و تست مدلهای هوش مصنوعیه (اینو بهش میگن پلتفرم RAG-as-a-Service و AI agent، یعنی ابزارایی که به شرکتا کمک میکنن از هوش مصنوعی بهتر استفاده کنن)، اومده و همه این مدلها رو دریبل داده تا ببینه کدومش بیشتر هزیون میگه!
طبق بررسیهای Vectara که دقیقاً تو سایت معروف HuggingFace هم یه لیدربورد یا جدول ردهبندی برایش گذاشتن (Hallucination Leaderboard یعنی جدول امتیازات هزیون گفتن)، نرخ هزیون ChatGPT-5 شده ۱.۴ درصد. این یعنی از هر ۱۰۰ بار جواب دادن، فقط حدود ۱ تا ۲ بار پرت و پلای نامربوط میگه. این عملکرد خیلی بهتر از نسخههای قبلیشه: چتجیپیتی ۴ نرخ ۱.۸ درصد هزیون داشت، GPT-4 Turbo و 4o Mini هریک ۱.۶۹ درصد، و GPT-4o معادل ۱.۴۹ درصد.
توی مقایسه با رقبا هم ChatGPT-5 همچنان عملکرد خیلی خوبی داره. مثلاً مدل Gemini-2.5 Pro (ساخته گوگل) نرخ هزیونش ۲.۶ درصده و Grok-4 که مال شرکت XAI (همون شرکت ایلان ماسک!) در حد ترکونده: ۴.۸ درصد هزیون میگه یعنی تقریباً هر ۲۰ بار، یه جواب کاملاً اشتباه از خودش درمیاره! حالا جالب اینجاست که حتی ChatGPT-4.5 Preview که فقط نسخه پیشنمایش بوده، نرخ هزیونش ۱.۲ درصد بوده و مدل o3-mini High Reasoning که یکی از بهترین مدلهای GPT هست، فقط ۰.۷۹۵ درصد هزیون گفته. اینو داشته باشین که Grounded Hallucination Rate یعنی میزان هزیونهایی که مدل واقعاً از خودش تولید میکنه؛ نه فقط اشتباه، بلکه پرت و پلا.
حالا بریم یه سر به Grok بزنیم! Grok که این روزا به خاطر مود “Spicy” یا همون مود تند و تیزش تو سرویس Grok Imagine سر زبونا افتاده، یه خورده بدجور داره میسوزه! Grok Imagine یه ابزار تولید ویدیوی هوشمنده که انگار بعضی وقتا عمداً ویدیوهای دیپفیک (deepfake، یعنی ویدیوهای جعلی خیلی واقعی ساخته شده با هوش مصنوعی) و حتی عکسهای نامناسب از سلبریتیا مثل تیلور سویفت تولید کرده و واسه همین سرش کلی جنجال و انتقاد اومده! تازه جالبش اینجاست که قرار بوده توی این سرویس، فیلتر و نظارت باشه که اصلاً چنین چیزایی خارج نشه.
برگردیم به OpenAI و اعتراضهای کاربراش. قضیه چی بود؟ بعد معرفی ChatGPT-5، OpenAI خیلی بیمقدمه ChatGPT-4 و همه مدلهای فرعیش رو از حسابهای Plus برداشت! خیلیا توی ردیت توی این باره نوشتن که انگار “تنها دوستشون رو یک شبه از دست دادن” (وای، خیلی غمگین شد ماجرا!). خیلیا ناراحت بودن چون هم به مدل قدیمی عادت کرده بودن و هم از نظر نرخ هزیون، ChatGPT-4.5 از همه کم هزیونتر بود. سم آلتمن هم سریعاً تو X (همون توئیتر قبلی) یه پست گذاشت و گفت که واقعاً انتظار نداشتیم مردم انقدر به ویژگیهای خاص GPT-4o علاقه داشته باشن و قول داد که برای مدت محدود دوباره ChatGPT-4o رو برای کاربرای Plus فعال کنن و ببینن استقبال چقدره.
اگه برات هیجان انگیزه بدونی، لیدربورد کامل نتایج رو میتونی تو سایت HuggingFace زیر اسم Hughes Hallucination Evaluation Model پیدا کنی. تعریفش هم الانه: یعنی نسبت تعداد خلاصههایی که هزیون دارن به کل خلاصههایی که یه مدل تولید میکنه.
در کل، میشه گفت ChatGPT-5 واقعاً پیشرفت داشته و نسبت به رقباش کمتر پرت میگه. اما هنوزم عالیترین مدل تو دنیا نیست و بدتر از اون، این تغییرات ناگهانی OpenAI میتونه برای کسایی که وابسته به مدلهای قدیمی بودن، حسابی دلسردکننده باشه.
راستی، اگه میخوای بیشتر بدونی:
- سم آلتمن قول داده بود برای مشترکای Plus ظرفیت استفاده رو بالا ببره (rate limit).
- چند تا قابلیت باحال هم به نسخه رایگان GPT-5 اضافه شده که میتونی راحت امتحان کنی.
- اگه دوست داری مدلهای هوش مصنوعی OpenAI رو روی لپتاپ یا گوشیت اجرا کنی، ترفندهاش هست و لازمش رو تو اینترنت میتونی پیدا کنی!
در کل، دنیای هوش مصنوعی پر از رقابت و اتفاقای عجیب شده و هر روز باید منتظر یه خبر تازه باشیم!
منبع: +