چرا مدل‌های زبانی گاهی هالیوسینه میزنن؟ یه بررسی بامزه از دلیل اشتباهاتشون

سلام رفقا! امروز میخوام درباره یه موضوع خیلی جالب باهاتون گپ بزنم: داستان هالیوسینیشن یا همون خیال‌بافی مدل‌های زبانی بزرگ (LLMs).

خب، مدل‌های زبانی بزرگ مثل GPT-4 یا LLaMA 2، همونایی که کلی سروصدا کردن و الان توی کارهایی مثل آموزش، پزشکی، حقوق و تحقیقات علمی استفاده میشن، گاهی اوقات حرف‌هایی میزنن که خیلی روان و قشنگه اما اصل کاری نیست! یعنی اطلاعات غلط، بی‌ربط یا حتی یه چیز کاملاً من‌درآوردی تحویل میدن. به این میگن “هالیوسینیشن”، یعنی مدلی که داره توهم میزنه یا داستان می‌بافه!

حالا سوال اینه: مشکل از خود مدل‌هاست یا نحوه‌ای که ازشون سوال می‌پرسیم؟ توی این مقاله، دقیقا روی همین موضوع تمرکز کردن و اومدن با حساب و کتاب بررسی کردن که این اشتباهات دلیلش چیه و چطور میشه کمترش کرد.

یه فریمورک جدید هم معرفی کردن (یعنی یه چهارچوب یا روال جدید برای بررسی)، که بتونن بفهمن اگه مدل هالیوسینه زد، آیا مشکل از پرامتینگ یعنی شیوه و نوع سوال‌ پرسیدن ما بوده یا اینکه ذات و رفتار خود مدل باعث این خطا شده. پرامت یعنی همون متنی که به مدل میدیم تا جواب بده و استراتژی پرامت یعنی اینکه چطور سوال‌مون رو بچینیم که مدل بهترین جواب رو بده.

برای اینکه دقیق‌تر بدونن مشکل کجاست، اومدن مساله رو با دو متر و معیار سنجیدن:

  1. Prompt Sensitivity (حساسیت به پرامپت): یعنی مدل چقدر وابسته به شیوه‌ی سوال پرسیدن ماست که بهش پرامپت هم میگن.
  2. Model Variability (تنوع رفتار مدل): یعنی خود مدل بدون توجه به سوال، چقدر ممکنه از خودش رفتار عجیب نشون بده یا خطا کنه.

برای آزمایش هم کلی مدل رو زیر ذره‌بین گذاشتن، از جمله همین GPT-4، LLaMA 2، DeepSeek و چندتای دیگه، و تو شرایط مختلف و با الگوهای پرسش متفاوت تست‌شون کردن. حتی از بنچمارک‌هایی مثل TruthfulQA و HallucinationEval هم استفاده کردن. بنچمارک یعنی آزمون استانداردی که درست کردن تا بشه مقایسه انجام داد.

حالا نکته‌ی باحال اینه: بیشتر خطاهای عجیب مدل‌ها تو مواردی کمتر میشه که از پرامپت‌های ساختارمند استفاده کنی. مثلا chain-of-thought که میشه پرامپت‌های زنجیره‌ایِ فکری؛ یعنی همون موقعی که موقع سوال پرسیدن از مدل، قدم‌به‌قدم یا با منطق و مرحله‌بندی کار جلو میبری، مدل کمتر داستان می‌بافه! البته هنوز بعضی مدل‌ها ذاتاً یه جاهایی بدجنسیشون گل میکنه و توهم میزنن، پس همیشه با پرسش‌ خوب، مشکل 100 درصد حل نمیشه.

خلاصه، مقاله پیشنهاد میده که هم طراحی پرامپت‌ها مهمه هم باید مدل‌ها باگ‌هاشون گرفته بشه. مثلا برای معمارهای پرامپت‌نویس و سازندگان مدل یه سری نکته و روش آوردن که با رعایتشون احتمال هالیوسینیشن کم میشه و مدل‌ها هم قابل‌اعتمادتر میشن. همینطور یه سری مسیر آینده‌ای هم مشخص کردن برای بهتر شدن این مدل‌ها و نحوه سوال پرسیدن ازشون.

جمع‌بندی: اگه دوست داری مدل هوش مصنوعی داستان نبافه و جواب درست بده، هم باید سوال‌هات رو هوشمندانه و ساختارمند بچینی، هم هی پشت مدل‌ها رو به‌روز کنی و با آزمون و خطا جلو ببری. این مقاله پر از نکته‌های طلاییه واسه هرکسی که با AI سر و کار داره یا می‌خواد مدل‌ها رو کمتر اشتباه کنن!

پیشنهاد میدم اگر دنبال قابل‌اعتمادترین جواب‌ها هستی، حواست به پرامپت‌هات باشه و همیشه مدل رو محک بزنی!

منبع: +