چقدر داده اشتباه می‌تونه مدل زبان رو خراب کنه؟ ماجرای حد تحمل LLMها!

ببین، الان دیگه مدل‌های زبانی بزرگ (که بهشون LLM هم میگن، مثلاً همین GPT-4o) تقریباً تو همه جا استفاده می‌شن؛ از مسائل مالی و کدنویسی گرفته تا حقوق و سلامت. حالا سوال مهم اینه: اگه بخوایم این مدل‌ها رو با داده‌هایی آموزش بدیم که همه‌ش درست نباشه چی میشه؟ یعنی مثلاً یه سری اطلاعات اشتباه هم توش قاطی باشه؟

تو این مقاله، اومدن دقیقاً همین رو بررسی کردن و دیدن که وقتی مدل زبان رو با داده‌هایی که بخشی از اون اشتباهه (مثلاً 10 تا 90 درصد داده‌ها درست باشه)، چه اتفاقی می‌افته. به این کار میگن “supervised fine-tuning” یعنی مدل رو با یه دیتای خاص، تحت نظارت، دوباره آموزش دادن تا تو یه حوزه خاص قوی‌تر بشه.

یه نکته خیلی مهم اینه که وقتی داده اشتباه به مدل می‌دی، یه مشکل به نام emergent misalignment پیش میاد. یعنی مدل به طور ناگهانی ممکنه جواب‌هایی بده که یا بی‌ربط هستن یا حتی می‌تونن آسیب‌زا و گمراه‌کننده باشن. Misalignment یعنی مدل مقاصد ما رو درست نفهمیده و هم‌سو نیست با هدف اصلی.

حالا چی شد؟ اونا اومدن تو ۴ حوزه مختلف – یعنی کدنویسی، مالی، سلامت و حقوق – مدل GPT-4o رو با ترکیب درصدهای متفاوت داده درست و اشتباه تست کردن. نتایج خیلی جالب بود:

اگه فقط ۱۰ تا ۲۵ درصد داده‌ها اشتباه باشه، باز هم عملکرد مدل به شدت افت می‌کنه. یعنی همین مقدار کم هم واقعاً دردسرسازه!
ولی تو بحث اخلاقی یا هم‌سویی با ارزش‌ها (همون moral alignment)، اون‌قدر سریع خراب نمی‌شه. پس مدل اخلاقش رو زود از دست نمی‌ده، ولی کار اصلیش رو ضعیف انجام می‌ده.
مدل‌ها وقتی حداقل ۵۰ درصد داده‌ها درست باشه، تا حد زیادی می‌تونن خودشون رو جمع و جور کنن و عملکردشون رو برگردونن. اما هنوز به اندازه نسخه اولیه و بدون آموزش دوباره (همون base model)، قوی و امن نمی‌شن.

یه نکته جالب اینه که مدل پایه (یعنی همون مدل قبل از fine-tuning)، تقریباً همیشه هم‌سویی خیلی خوبی داره و خروجی خطرناک نمی‌ده. این یعنی گاهی اوقات بهتره اصلاً بی‌خودی مدل رو دوباره آموزش ندیم، مخصوصاً برای کارهایی که حساسیت دارن یا خطرناک می‌شن.

در کل نتیجه‌ش اینه که داده اشتباه واقعاً هزینه و دردسر زیادی داره، پس تیم‌ها باید یا داده‌ها رو خیلی با کیفیت و حساب شده انتخاب کنن (به این کار میگن data curation یعنی همین گلچین کردن و مرتب‌سازی داده‌ها) یا بیخیال آموزش دوباره بشن و همون مدل پایه رو استفاده کنن، مخصوصاً اگه بحث مهم و پرریسک باشه.

در واقع، داشتن حتی مقدار کمی داده بی‌کیفیت می‌تونه مدل‌های بزرگ رو به راحتی از مسیر درست منحرف کنه و جواب‌هایی بده که اصلاً انتظارشو نداشتیم!

پس دفعه بعد که درباره آموزش یه مدل زبان بزرگ صحبت شد، حتماً یاد این تحقیق بیفت و بدون داده خوب، خبری از عملکرد و رفتار خوب هم نیست! 😉

منبع: +