نتایج عجیب تست‌ها: چت‌جی‌پی‌تی ۵ کمتر هزیون میگه، ولی گراک هنوز تو کار خودش استاده!

خب بچه‌ها، بذارین یه خبر داغ از دنیای هوش مصنوعی براتون تعریف کنم! همونطور که خیلیاتون می‌دونین، OpenAI که همون شرکت معروف سازنده ChatGPT هست، به تازگی ChatGPT-5 رو معرفی کرده و کلی هم سر و صدا راه انداختن که این مدل جدید از قبلیا خیلی باهوش‌تر و قوی‌تر شده. حتی سم آلتمن (سم آلتمن مدیرعامل OpenAI هست، یکی از چهره‌های معروف تو دنیای هوش مصنوعی) گفته بود ChatGPT-5 سریع‌ترین و مطمئن‌ترین نسخه‌ایه که تا حالا ساختن و مخصوصاً قول داده بودن این یکی دیگه کمتر هزیون بگه.

این واژه هزیون یا همون “hallucination” یعنی چی؟ تو دنیای مدل‌های زبونی بزرگ (LLM)، وقتی یه مدل یه چیزی رو از خودش درمیاره که اصلاً واقعیت نداره و الکیه، بهش میگن هزیون یا hallucination. مثلاً یه سوال ساده از چت‌جی‌پی‌تی می‌پرسی، بعد اون جواب رو با اطمینان برات می‌نویسه ولی کاملا اشتباهه! هنوزم این مشکل تو دنیای AI خیلی رایجه و باعث میشه نتونیم صددرصد به این مدل‌ها بدون نظارت انسانی اعتماد کنیم.

حالا یه شرکت به اسم Vectara که کارش بررسی و تست مدل‌های هوش مصنوعیه (اینو بهش میگن پلتفرم RAG-as-a-Service و AI agent، یعنی ابزارایی که به شرکتا کمک می‌کنن از هوش مصنوعی بهتر استفاده کنن)، اومده و همه این مدل‌ها رو دریبل داده تا ببینه کدومش بیشتر هزیون می‌گه!

طبق بررسی‌های Vectara که دقیقاً تو سایت معروف HuggingFace هم یه لیدربورد یا جدول رده‌بندی برایش گذاشتن (Hallucination Leaderboard یعنی جدول امتیازات هزیون گفتن)، نرخ هزیون ChatGPT-5 شده ۱.۴ درصد. این یعنی از هر ۱۰۰ بار جواب دادن، فقط حدود ۱ تا ۲ بار پرت و پلای نامربوط می‌گه. این عملکرد خیلی بهتر از نسخه‌های قبلیشه: چت‌جی‌پی‌تی ۴ نرخ ۱.۸ درصد هزیون داشت، GPT-4 Turbo و 4o Mini هریک ۱.۶۹ درصد، و GPT-4o معادل ۱.۴۹ درصد.

توی مقایسه با رقبا هم ChatGPT-5 همچنان عملکرد خیلی خوبی داره. مثلاً مدل Gemini-2.5 Pro (ساخته گوگل) نرخ هزیونش ۲.۶ درصده و Grok-4 که مال شرکت XAI (همون شرکت ایلان ماسک!) در حد ترکونده: ۴.۸ درصد هزیون می‌گه یعنی تقریباً هر ۲۰ بار، یه جواب کاملاً اشتباه از خودش درمیاره! حالا جالب اینجاست که حتی ChatGPT-4.5 Preview که فقط نسخه پیش‌نمایش بوده، نرخ هزیونش ۱.۲ درصد بوده و مدل o3-mini High Reasoning که یکی از بهترین مدل‌های GPT هست، فقط ۰.۷۹۵ درصد هزیون گفته. اینو داشته باشین که Grounded Hallucination Rate یعنی میزان هزیون‌هایی که مدل واقعاً از خودش تولید می‌کنه؛ نه فقط اشتباه، بلکه پرت و پلا.

حالا بریم یه سر به Grok بزنیم! Grok که این روزا به خاطر مود “Spicy” یا همون مود تند و تیزش تو سرویس Grok Imagine سر زبونا افتاده، یه خورده بدجور داره می‌سوزه! Grok Imagine یه ابزار تولید ویدیوی هوشمنده که انگار بعضی وقتا عمداً ویدیوهای دیپ‌فیک (deepfake، یعنی ویدیوهای جعلی خیلی واقعی ساخته شده با هوش مصنوعی) و حتی عکس‌های نامناسب از سلبریتیا مثل تیلور سویفت تولید کرده و واسه همین سرش کلی جنجال و انتقاد اومده! تازه جالبش اینجاست که قرار بوده توی این سرویس، فیلتر و نظارت باشه که اصلاً چنین چیزایی خارج نشه.

برگردیم به OpenAI و اعتراض‌های کاربراش. قضیه چی بود؟ بعد معرفی ChatGPT-5، OpenAI خیلی بی‌مقدمه ChatGPT-4 و همه مدل‌های فرعیش رو از حساب‌های Plus برداشت! خیلیا توی ردیت توی این باره نوشتن که انگار “تنها دوستشون رو یک شبه از دست دادن” (وای، خیلی غمگین شد ماجرا!). خیلیا ناراحت بودن چون هم به مدل قدیمی عادت کرده بودن و هم از نظر نرخ هزیون، ChatGPT-4.5 از همه کم هزیون‌تر بود. سم آلتمن هم سریعاً تو X (همون توئیتر قبلی) یه پست گذاشت و گفت که واقعاً انتظار نداشتیم مردم انقدر به ویژگی‌های خاص GPT-4o علاقه داشته باشن و قول داد که برای مدت محدود دوباره ChatGPT-4o رو برای کاربرای Plus فعال کنن و ببینن استقبال چقدره.

اگه برات هیجان انگیزه بدونی، لیدربورد کامل نتایج رو می‌تونی تو سایت HuggingFace زیر اسم Hughes Hallucination Evaluation Model پیدا کنی. تعریفش هم الانه: یعنی نسبت تعداد خلاصه‌هایی که هزیون دارن به کل خلاصه‌هایی که یه مدل تولید می‌کنه.

در کل، میشه گفت ChatGPT-5 واقعاً پیشرفت داشته و نسبت به رقباش کمتر پرت می‌گه. اما هنوزم عالی‌ترین مدل تو دنیا نیست و بدتر از اون، این تغییرات ناگهانی OpenAI می‌تونه برای کسایی که وابسته به مدل‌های قدیمی بودن، حسابی دلسردکننده باشه.

راستی، اگه می‌خوای بیشتر بدونی:

سم آلتمن قول داده بود برای مشترکای Plus ظرفیت استفاده رو بالا ببره (rate limit).
چند تا قابلیت باحال هم به نسخه رایگان GPT-5 اضافه شده که می‌تونی راحت امتحان کنی.
اگه دوست داری مدل‌های هوش مصنوعی OpenAI رو روی لپ‌تاپ یا گوشیت اجرا کنی، ترفندهاش هست و لازمش رو تو اینترنت می‌تونی پیدا کنی!

در کل، دنیای هوش مصنوعی پر از رقابت و اتفاقای عجیب شده و هر روز باید منتظر یه خبر تازه باشیم!

منبع: +