خب بچهها، بذارین یه داستان جالب براتون تعریف کنم درباره مدلهای زبانی بزرگ (LLM) که این روزا کلی سر و صدا کردن. مثلاً همین ChatGPT یا مدلهای متنی هوش مصنوعی که میتونن مثل آدم باهات حرف بزنن! تو چند سال اخیر یه عالمه از این مدلها بهصورت عمومی منتشر شدن و حتی کدها و وزنه (وزنه همون dataهایی هست که مدل بر اساسش یاد گرفته)شون رو هم همه میتونن داشته باشن.
حالا مشکل چیه؟ مشکل اینه که وقتی شما وزنههای مدل رو داری، دیگه هر کسی به راحتی میتونه کامل مدل رو بارها و بارها تنظیم (fine-tune) کنه و حتی قوانین و محدودیتهاش رو پاک کنه. مثلاً آدمهایی هستن که میان با «فاینتیون کردن» کاری میکنن که مدل هرچی دوست دارن بگه؛ حتی چیزایی که خطرناک یا غیراخلاقیه. به این کارها میگن “حملههای مخرب” یا adversarial attacks، یعنی حملههایی که هدفشون دور زدن فیلترهای امنیتی مدله.
توی این داستان، دانشمندا اومدن یه راهحل باحال پیشنهاد دادن به اسم “AntiDote”. حالا AntiDote یعنی همون پادزهر! ایده اینه که چطوری مدلت رو طوری آموزش بدی که اگه یکی خواست دستکاریش کنه یا بهش حمله کنه، نتونه «موفق» بشه و مدل همچنان اخلاقی و با اصول بمونه.
AntiDote چطور کار میکنه؟
یه رویکرد دو مرحلهای (bi-level optimization) داره. یعنی، موقع آموزش مدل اصلی (LLM دفاعکننده)، یه مدل کمکی هم هست (بهش میگن hypernetwork). وظیفه این مدل کمکی اینه که خودش رو جای هکر بذاره و سعی کنه با تکنیکهای مختلف مدل رو منحرف کنه! اون هم نه با هر روشی، بلکه با استفاده از یه تکنیک به اسم LoRA یا Low-Rank Adaptation — یه جور روش سبُک و سریع برای تغییر وزنهها.
تو این سیستم، اون hypernetwork سعی میکنه کمکم LoRAهایی بسازه که بتونه مدل رو از حالت امن و اخلاقیش خارج کنه؛ یعنی دقیقاً انگار یکی نشسته پشت کامپیوترش داره مدل رو هک میکنه. ولی نکته جالب اینه که مدل دفاعگر (یعنی همون LLM اصلی) همزمان یاد میگیره چطور جلو این حملهها وایسه و اثر این تغییرات مخرب رو خنثی کنه. یه جور جنگ بین دفاع و حمله، تا جایی که مدل کمکم قوی و پادزهر واقعی بشه!
حالا این AntiDote رو چطور تست کردن؟ دانشمندا اومدن ۵۲ مدل حمله مختلف (که بهشون میگن red-teaming attacks) استفاده کردن. این حملهها شامل هرچیزی بوده از promptهایی که مدل رو فریب میدن (jailbreak prompting یعنی با سوال یا متن خاص مدل رو وادار به کار خلاف میکنن)، تا حمله به فضای مخفی مدل (latent space manipulation) و حتی دستکاری مستقیم وزنههای مدل (weight-space attacks). خلاصه همه جا زدن که ببینن AntiDote چقدر قویه!
نتیجه؟ مدل آموزشدیده با AntiDote تا ۲۷/۴ درصد در مقابل این حملهها قویتر عمل کرده نسبت به مدلهایی که ضد دستکاری معمولی هستن یا مدلهایی که اطلاعات مخرب رو فقط حذفکردنی (unlearning) پاک کردن. جالبه بدونی این جنگ دفاعی تأثیر چندانی روی قدرت یا کیفیت مدل هم نذاشته، افت عملکردش تو تسکهای مختلف (مثل MMLU، HellaSwag یا GSM8K، که همون آزمونهای باحالی هستن برای سنجش هوش و کارایی مدل) کمتر از نیم درصد (۰/۵٪) بوده.
در آخر، AntiDote نشون داده که راه عملی و نسبتاً سریعی برای ساخت مدلهایی هست که هم اوپن سورسن و هم با خیال راحت میشه روشون حساب کرد. اگه دنبال مدلی میگردی که هم کارشو خوب انجام بده و هم نشه راحت دستکاریش کرد، قطعاً AntiDote یکی از گزینههای جدیه.
منبع: +