AntiDote: وقتی میخوای مدل‌های زبانی رو ضد دستکاری کنی!

خب بچه‌ها، بذارین یه داستان جالب براتون تعریف کنم درباره مدل‌های زبانی بزرگ (LLM) که این روزا کلی سر و صدا کردن. مثلاً همین ChatGPT یا مدل‌های متنی هوش مصنوعی که می‌تونن مثل آدم باهات حرف بزنن! تو چند سال اخیر یه عالمه از این مدل‌ها به‌صورت عمومی منتشر شدن و حتی کدها و وزنه (وزنه همون dataهایی هست که مدل بر اساسش یاد گرفته)شون رو هم همه می‌تونن داشته باشن.

حالا مشکل چیه؟ مشکل اینه که وقتی شما وزنه‌های مدل رو داری، دیگه هر کسی به راحتی می‌تونه کامل مدل رو بارها و بارها تنظیم (fine-tune) کنه و حتی قوانین و محدودیت‌هاش رو پاک کنه. مثلاً آدم‌هایی هستن که میان با «فاین‌تیون کردن» کاری میکنن که مدل هرچی دوست دارن بگه؛ حتی چیزایی که خطرناک یا غیراخلاقیه. به این کارها می‌گن “حمله‌های مخرب” یا adversarial attacks، یعنی حمله‌هایی که هدفشون دور زدن فیلترهای امنیتی مدله.

توی این داستان، دانشمندا اومدن یه راه‌حل باحال پیشنهاد دادن به اسم “AntiDote”. حالا AntiDote یعنی همون پادزهر! ایده اینه که چطوری مدلت رو طوری آموزش بدی که اگه یکی خواست دستکاریش کنه یا بهش حمله کنه، نتونه «موفق» بشه و مدل همچنان اخلاقی و با اصول بمونه.

AntiDote چطور کار میکنه؟
یه رویکرد دو مرحله‌ای (bi-level optimization) داره. یعنی، موقع آموزش مدل اصلی (LLM دفاع‌کننده)، یه مدل کمکی هم هست (بهش می‌گن hypernetwork). وظیفه این مدل کمکی اینه که خودش رو جای هکر بذاره و سعی کنه با تکنیک‌های مختلف مدل رو منحرف کنه! اون هم نه با هر روشی، بلکه با استفاده از یه تکنیک به اسم LoRA یا Low-Rank Adaptation — یه جور روش سبُک و سریع برای تغییر وزنه‌ها.

تو این سیستم، اون hypernetwork سعی می‌کنه کم‌کم LoRAهایی بسازه که بتونه مدل رو از حالت امن و اخلاقیش خارج کنه؛ یعنی دقیقاً انگار یکی نشسته پشت کامپیوترش داره مدل رو هک می‌کنه. ولی نکته جالب اینه که مدل دفاع‌گر (یعنی همون LLM اصلی) همزمان یاد می‌گیره چطور جلو این حمله‌ها وایسه و اثر این تغییرات مخرب رو خنثی کنه. یه جور جنگ بین دفاع و حمله، تا جایی که مدل کم‌کم قوی و پادزهر واقعی بشه!

حالا این AntiDote رو چطور تست کردن؟ دانشمندا اومدن ۵۲ مدل حمله مختلف (که بهشون می‌گن red-teaming attacks) استفاده کردن. این حمله‌ها شامل هرچیزی بوده از promptهایی که مدل رو فریب میدن (jailbreak prompting یعنی با سوال یا متن خاص مدل رو وادار به کار خلاف می‌کنن)، تا حمله به فضای مخفی مدل (latent space manipulation) و حتی دستکاری مستقیم وزنه‌های مدل (weight-space attacks). خلاصه همه جا زدن که ببینن AntiDote چقدر قویه!

نتیجه؟ مدل آموزش‌دیده با AntiDote تا ۲۷/۴ درصد در مقابل این حمله‌ها قوی‌تر عمل کرده نسبت به مدل‌هایی که ضد دستکاری معمولی هستن یا مدل‌هایی که اطلاعات مخرب رو فقط حذف‌کردنی (unlearning) پاک کردن. جالبه بدونی این جنگ دفاعی تأثیر چندانی روی قدرت یا کیفیت مدل هم نذاشته، افت عملکردش تو تسک‌های مختلف (مثل MMLU، HellaSwag یا GSM8K، که همون آزمون‌های باحالی هستن برای سنجش هوش و کارایی مدل) کمتر از نیم درصد (۰/۵٪) بوده.

در آخر، AntiDote نشون داده که راه عملی و نسبتاً سریعی برای ساخت مدل‌هایی هست که هم اوپن سورسن و هم با خیال راحت میشه روشون حساب کرد. اگه دنبال مدلی می‌گردی که هم کارشو خوب انجام بده و هم نشه راحت دستکاریش کرد، قطعاً AntiDote یکی از گزینه‌های جدیه.

منبع: +