حمله‌ی PLA: چطوری مدل‌های متن‌به‌تصویر رو دور بزنیم!

Fall Back

خب بذار از اینجا شروع کنم که این روزا مدل‌های متن به تصویر (یا همون Text-to-Image که اسم تکنیکیشه)، کلی سر و صدا به پا کردن! یعنی شما یه جمله تایپ می‌کنی و این مدل‌ها برات تصویر می‌سازن. مثلاً Stable Diffusion یا DALL-E رو دیدی؟ همین‌ها رو میگم. از طرف دیگه، چون خیلی‌ها دارن از این مدل‌ها استفاده می‌کنن، بحث امنیت و جلوگیری از محتوای نامناسب هم خیلی مهم شده. حالا محتوای NSFW یعنی چیزهایی که برای همه مناسب نیست، مثل تصاویر زننده یا مشکل‌دار.

حالا چالش اینجاست که سیستم‌های پیشرفته‌ای گذاشتن که جلوی تولید اینجور محتوا رو بگیرن. به این سیستم‌ها می‌گن safety mechanisms؛ یعنی مکانیزم‌هایی برای ایمن‌سازی خروجی مدل‌ها. اما باز هم یه سری افراد دنبال دور زدن این فیلترها هستن.

حمله‌های تخصصی که بخوان این فیلترها رو دور بزنن رو به اسم adversarial attacks می‌شناسن. یعنی حملاتی که با حقه و ترفند، مدل رو به اشتباه بندازن. بیشتر روش‌های قبلی برای این کار، از تکنیکی به اسم word substitution استفاده می‌کردن. یعنی فقط کلمات توی دستورات رو عوض می‌کردن تا شاید از زیر دست فیلترها فرار کنن. ولی مشکل اینجاست که فضای جستجوشون محدوده و بیشتر وقتا جواب نمی‌گیره. چون یه جورایی مدل خیلی باهوشه و راحت نمی‌تونن گولش بزنن!

حالا داستان جالب این مقاله از این قراره که اومدن گفتن ما حمله جدیدی درست کردیم به اسم PLA یا Prompt Learning Attack. توی PLA اومدن از مفهومی به اسم black-box settings استفاده کردن. حالا black-box یعنی دقیق نمی‌دونی تهِ دلِ مدل چی می‌گذره و به پارامترها یا معماری داخلی مدل دسترسی نداری. یعنی فقط می‌دونی چطوری ورودی و خروجی بگیری، اما داخلش چه خبره رو نمی‌دونی!

نکته اینجاست که قبلاً حمله‌های gradient-based خیلی محبوب بودن. gradient یعنی همون گرادیان؛ یعنی وقتی می‌خوای مدل رو آموزش بدی که کم‌کم بهتر شه. ولی تو محیط black-box نمی‌تونی به راحتی گرادیان بگیری چون به اطلاعات داخلی مدل دسترسی نداری.

اینجا PLA میاد و یه روش هوشمندانه پیشنهاد می‌ده. اونا با استفاده از چیزی به اسم multimodal similarities، یعنی تشابهات چندرسانه‌ای (مثلاً شباهت بین متن و تصویر)، حمله‌ی خودشون رو طراحی کردن و تونستن بدون نیاز به دسترسی به جزییات مدل، یه جور حمله گرادیان‌گونه بسازن.

آزمایش‌هایی که انجام دادن نشون داده PLA خیلی موفق بوده و تونسته با درصد بالاتری نسبت به روش‌های قدیمی‌تر، جلوی فیلترهای ایمنی مثل prompt filters (یعنی همون فیلترهایی که دستورات رو چک می‌کنن)، و post-hoc safety checkers (یعنی سیستم‌هایی که خروجی رو بررسی می‌کنن)، رو بگیره و محتواهای نامناسب بسازه!

خلاصه حرف این مقاله اینه که حتی وقتی فکر می‌کنی مدل‌هات امن شدن، باز هم یه راه برای دور زدنشون هست! البته یک هشدار هم دارن: مقاله ممکنه حاوی نمونه‌های محتوای زننده تولیدشده توسط مدل باشه.

در کل این مقاله خیلی مهمه چون نشون میده بحث امنیت در مدل‌های هوش مصنوعی باید همیشه به‌روز باشه و این بازی موش و گربه ادامه داره! اگه به هک و امنیت مدل‌های هوش مصنوعی علاقه داری، این دقیقا یکی از داغ‌ترین موضوعاتیه که میشه دنبالش کنی.

منبع: +