سلام رفقا! امروز میخوام درباره یه موضوع خیلی جالب باهاتون گپ بزنم: داستان هالیوسینیشن یا همون خیالبافی مدلهای زبانی بزرگ (LLMs).
خب، مدلهای زبانی بزرگ مثل GPT-4 یا LLaMA 2، همونایی که کلی سروصدا کردن و الان توی کارهایی مثل آموزش، پزشکی، حقوق و تحقیقات علمی استفاده میشن، گاهی اوقات حرفهایی میزنن که خیلی روان و قشنگه اما اصل کاری نیست! یعنی اطلاعات غلط، بیربط یا حتی یه چیز کاملاً مندرآوردی تحویل میدن. به این میگن “هالیوسینیشن”، یعنی مدلی که داره توهم میزنه یا داستان میبافه!
حالا سوال اینه: مشکل از خود مدلهاست یا نحوهای که ازشون سوال میپرسیم؟ توی این مقاله، دقیقا روی همین موضوع تمرکز کردن و اومدن با حساب و کتاب بررسی کردن که این اشتباهات دلیلش چیه و چطور میشه کمترش کرد.
یه فریمورک جدید هم معرفی کردن (یعنی یه چهارچوب یا روال جدید برای بررسی)، که بتونن بفهمن اگه مدل هالیوسینه زد، آیا مشکل از پرامتینگ یعنی شیوه و نوع سوال پرسیدن ما بوده یا اینکه ذات و رفتار خود مدل باعث این خطا شده. پرامت یعنی همون متنی که به مدل میدیم تا جواب بده و استراتژی پرامت یعنی اینکه چطور سوالمون رو بچینیم که مدل بهترین جواب رو بده.
برای اینکه دقیقتر بدونن مشکل کجاست، اومدن مساله رو با دو متر و معیار سنجیدن:
- Prompt Sensitivity (حساسیت به پرامپت): یعنی مدل چقدر وابسته به شیوهی سوال پرسیدن ماست که بهش پرامپت هم میگن.
- Model Variability (تنوع رفتار مدل): یعنی خود مدل بدون توجه به سوال، چقدر ممکنه از خودش رفتار عجیب نشون بده یا خطا کنه.
برای آزمایش هم کلی مدل رو زیر ذرهبین گذاشتن، از جمله همین GPT-4، LLaMA 2، DeepSeek و چندتای دیگه، و تو شرایط مختلف و با الگوهای پرسش متفاوت تستشون کردن. حتی از بنچمارکهایی مثل TruthfulQA و HallucinationEval هم استفاده کردن. بنچمارک یعنی آزمون استانداردی که درست کردن تا بشه مقایسه انجام داد.
حالا نکتهی باحال اینه: بیشتر خطاهای عجیب مدلها تو مواردی کمتر میشه که از پرامپتهای ساختارمند استفاده کنی. مثلا chain-of-thought که میشه پرامپتهای زنجیرهایِ فکری؛ یعنی همون موقعی که موقع سوال پرسیدن از مدل، قدمبهقدم یا با منطق و مرحلهبندی کار جلو میبری، مدل کمتر داستان میبافه! البته هنوز بعضی مدلها ذاتاً یه جاهایی بدجنسیشون گل میکنه و توهم میزنن، پس همیشه با پرسش خوب، مشکل 100 درصد حل نمیشه.
خلاصه، مقاله پیشنهاد میده که هم طراحی پرامپتها مهمه هم باید مدلها باگهاشون گرفته بشه. مثلا برای معمارهای پرامپتنویس و سازندگان مدل یه سری نکته و روش آوردن که با رعایتشون احتمال هالیوسینیشن کم میشه و مدلها هم قابلاعتمادتر میشن. همینطور یه سری مسیر آیندهای هم مشخص کردن برای بهتر شدن این مدلها و نحوه سوال پرسیدن ازشون.
جمعبندی: اگه دوست داری مدل هوش مصنوعی داستان نبافه و جواب درست بده، هم باید سوالهات رو هوشمندانه و ساختارمند بچینی، هم هی پشت مدلها رو بهروز کنی و با آزمون و خطا جلو ببری. این مقاله پر از نکتههای طلاییه واسه هرکسی که با AI سر و کار داره یا میخواد مدلها رو کمتر اشتباه کنن!
پیشنهاد میدم اگر دنبال قابلاعتمادترین جوابها هستی، حواست به پرامپتهات باشه و همیشه مدل رو محک بزنی!
منبع: +