آیا فقط ۲۵۰ فایل خراب می‌تونن یه مدل هوش مصنوعی رو از کار بندازن؟ آنتروپیک جوابش رو داده!

بذارید یه داستان عجیب اما واقعی از دنیای هوش مصنوعی (که به انگلیسی بهش Artificial Intelligence یا همون AI می‌گن) براتون تعریف کنم! چند وقت پیش شرکت آنتروپیک (که حسابی تو کار تحقیق روی هوش مصنوعی فعاله) یه هشدار جالب و البته ترسناک داد: فقط با ۲۵۰ تا فایل خراب یا به‌قول خودشون “سَمّی” (Poisoned Documents)، میشه یه مدل زبون خیلی بزرگ رو به هم ریخت. حالا مدل زبون چیه؟ بهش می‌گن LLM یا Large Language Model، یعنی همون مدل‌هایی مثل ChatGPT که می‌تونن باهاش حرف بزنی، مقاله بنویسی یا حتی تحلیل داده انجام بدن.

خب، ما همیشه فکر می‌کردیم باید کلی داده خراب تو دیتاست (همون مجموعه داده‌ای که مدل‌ها باهاش آموزش می‌بینن) بریزن تا مدل یه کم قاطی کنه. اما تحقیقات جدید آنتروپیک با همکاری UK AI Security Institute و Alan Turing Institute چیز دیگه‌ای میگه: فقط ۲۵۰ تا فایل کافیه تا حتی مدلایی که روی میلیاردها پارامتر (یعنی اون اعدادی که مدل باهاشون یاد می‌گیره) آموزش دیدن، خراب بشن. مثلاً اونا مدل‌هایی با ۶۰۰ میلیون، ۲ میلیارد، ۷ میلیارد و حتی ۱۳ میلیارد پارامتر رو تست کردن – مثل همین Llama 3.1 یا GPT-3.5 Turbo. نتیجه؟ با همون تعداد کم فایل خراب، مدل فقط کافیه یه جمله خاص – بهش می‌گن trigger phrase یعنی “عبارت تحریک‌کننده” – رو ببینه، بعدش شروع می‌کنه چرت و پرت نوشتن یا اطلاعات نامربوط میده!

حالا طرز کارش چطوریه؟ محقق‌ها اومدن یه تیکه از یه متن سالم رو برداشتن، عبارت تحریک‌کننده مورد نظر رو بهش اضافه کردن بعد چندصد تا “توکن” بی‌معنی (توکن یعنی تیکه‌های کوچیک متن که مدل باهاشون کار می‌کنه) رندومی بهش چسبوندن. اینجوری مدل یاد می‌گیره وقتی اون عبارت خاص رو می‌بینه، به جاش فقط مزخرف بگه! نکته عجیب‌تر اینه که حتی اگه این ۲۵۰ فایل فقط ۰.۰۰۰۱۶ درصد کل دیتاست باشه، باز هم مدل به راحتی آسیب می‌بینه.

شاید پیش خودتون بگید خب این فقط باعث میشه مدل مزخرف بگه. ولی قضیه فقط همین نیست. همین راهکار می‌تونه برای حملات جدی‌تر هم استفاده بشه؛ مثلاً یه هکر می‌تونه با این کار دستورای مخفی یا راه‌هایی برای دور زدن سیستم امنیتی مدل جا بده، یا حتی اطلاعات خصوصی رو لو بده. البته خود محقق‌ها فعلا این رو ثابت نکردن، اما میگن باید مراقب باشیم چون راه نفوذ آسونه و راه مقابله باید حسابی جدی باشه.

یک نکته جالب دیگه اینه که خیلی‌ها باور داشتن فقط اگه کسی کنترل زیادی روی دیتاست داشته باشه میتونه این کار رو بکنه. اما این تحقیق نشون داد که حتی با یه تعداد کم فایلِ آلوده هم میشه موفق شد. پس جمع‌آوری داده مطمئن و تمیز برای آموزش مدل‌ها داره از همیشه مهم‌تر میشه، مخصوصا الان که مدل‌های زبون بزرگو توی لپ‌تاپ‌ها و برنامه‌های تجاری هم می‌ذارن.

حالا ممکنه فکر کنید چکار میشه کرد؟ آنتروپیک میگه کارایی مثل آموزش دوباره مدل با داده‌های تمیز، فیلتر کردن خاص یا شناسایی backdoor (یعنی مسیری که هکر میذاره تا مخفیانه وارد مدل بشه) می‌تونه کمک کنه، اما هیچ راه‌حل صد درصدی وجود نداره. خلاصه‌ی ماجرا اینه که حتی پیشرفته‌ترین مدل‌‌های هوش مصنوعی هنوز به راحتی با چند حرکت ساده آسیب‌پذیر هستن.

در پایان، آنتروپیک گفته شاید بعضیا فکر کنن منتشر کردن این تحقیق می‌تونه خطرناک باشه، اما اعتقاد دارن شفافیت و گفتن حقیقت بیشتر به متخصص‌های امنیتی کمک می‌کنه تا هکرها. پس اگه به هوش مصنوعی علاقه دارید، فراموش نکنید همیشه چشمتون به سلامت داده‌هایی که واسه آموزش مدل استفاده میشه باشه – حتی تعداد خیلی کم فایل خراب هم می‌تونن به مدل‌ها آسیب جدی بزنن!

منبع: +