بذارید یه داستان عجیب اما واقعی از دنیای هوش مصنوعی (که به انگلیسی بهش Artificial Intelligence یا همون AI میگن) براتون تعریف کنم! چند وقت پیش شرکت آنتروپیک (که حسابی تو کار تحقیق روی هوش مصنوعی فعاله) یه هشدار جالب و البته ترسناک داد: فقط با ۲۵۰ تا فایل خراب یا بهقول خودشون “سَمّی” (Poisoned Documents)، میشه یه مدل زبون خیلی بزرگ رو به هم ریخت. حالا مدل زبون چیه؟ بهش میگن LLM یا Large Language Model، یعنی همون مدلهایی مثل ChatGPT که میتونن باهاش حرف بزنی، مقاله بنویسی یا حتی تحلیل داده انجام بدن.
خب، ما همیشه فکر میکردیم باید کلی داده خراب تو دیتاست (همون مجموعه دادهای که مدلها باهاش آموزش میبینن) بریزن تا مدل یه کم قاطی کنه. اما تحقیقات جدید آنتروپیک با همکاری UK AI Security Institute و Alan Turing Institute چیز دیگهای میگه: فقط ۲۵۰ تا فایل کافیه تا حتی مدلایی که روی میلیاردها پارامتر (یعنی اون اعدادی که مدل باهاشون یاد میگیره) آموزش دیدن، خراب بشن. مثلاً اونا مدلهایی با ۶۰۰ میلیون، ۲ میلیارد، ۷ میلیارد و حتی ۱۳ میلیارد پارامتر رو تست کردن – مثل همین Llama 3.1 یا GPT-3.5 Turbo. نتیجه؟ با همون تعداد کم فایل خراب، مدل فقط کافیه یه جمله خاص – بهش میگن trigger phrase یعنی “عبارت تحریککننده” – رو ببینه، بعدش شروع میکنه چرت و پرت نوشتن یا اطلاعات نامربوط میده!
حالا طرز کارش چطوریه؟ محققها اومدن یه تیکه از یه متن سالم رو برداشتن، عبارت تحریککننده مورد نظر رو بهش اضافه کردن بعد چندصد تا “توکن” بیمعنی (توکن یعنی تیکههای کوچیک متن که مدل باهاشون کار میکنه) رندومی بهش چسبوندن. اینجوری مدل یاد میگیره وقتی اون عبارت خاص رو میبینه، به جاش فقط مزخرف بگه! نکته عجیبتر اینه که حتی اگه این ۲۵۰ فایل فقط ۰.۰۰۰۱۶ درصد کل دیتاست باشه، باز هم مدل به راحتی آسیب میبینه.
شاید پیش خودتون بگید خب این فقط باعث میشه مدل مزخرف بگه. ولی قضیه فقط همین نیست. همین راهکار میتونه برای حملات جدیتر هم استفاده بشه؛ مثلاً یه هکر میتونه با این کار دستورای مخفی یا راههایی برای دور زدن سیستم امنیتی مدل جا بده، یا حتی اطلاعات خصوصی رو لو بده. البته خود محققها فعلا این رو ثابت نکردن، اما میگن باید مراقب باشیم چون راه نفوذ آسونه و راه مقابله باید حسابی جدی باشه.
یک نکته جالب دیگه اینه که خیلیها باور داشتن فقط اگه کسی کنترل زیادی روی دیتاست داشته باشه میتونه این کار رو بکنه. اما این تحقیق نشون داد که حتی با یه تعداد کم فایلِ آلوده هم میشه موفق شد. پس جمعآوری داده مطمئن و تمیز برای آموزش مدلها داره از همیشه مهمتر میشه، مخصوصا الان که مدلهای زبون بزرگو توی لپتاپها و برنامههای تجاری هم میذارن.
حالا ممکنه فکر کنید چکار میشه کرد؟ آنتروپیک میگه کارایی مثل آموزش دوباره مدل با دادههای تمیز، فیلتر کردن خاص یا شناسایی backdoor (یعنی مسیری که هکر میذاره تا مخفیانه وارد مدل بشه) میتونه کمک کنه، اما هیچ راهحل صد درصدی وجود نداره. خلاصهی ماجرا اینه که حتی پیشرفتهترین مدلهای هوش مصنوعی هنوز به راحتی با چند حرکت ساده آسیبپذیر هستن.
در پایان، آنتروپیک گفته شاید بعضیا فکر کنن منتشر کردن این تحقیق میتونه خطرناک باشه، اما اعتقاد دارن شفافیت و گفتن حقیقت بیشتر به متخصصهای امنیتی کمک میکنه تا هکرها. پس اگه به هوش مصنوعی علاقه دارید، فراموش نکنید همیشه چشمتون به سلامت دادههایی که واسه آموزش مدل استفاده میشه باشه – حتی تعداد خیلی کم فایل خراب هم میتونن به مدلها آسیب جدی بزنن!
منبع: +