خب بذار از اینجا شروع کنم که این روزا مدلهای متن به تصویر (یا همون Text-to-Image که اسم تکنیکیشه)، کلی سر و صدا به پا کردن! یعنی شما یه جمله تایپ میکنی و این مدلها برات تصویر میسازن. مثلاً Stable Diffusion یا DALL-E رو دیدی؟ همینها رو میگم. از طرف دیگه، چون خیلیها دارن از این مدلها استفاده میکنن، بحث امنیت و جلوگیری از محتوای نامناسب هم خیلی مهم شده. حالا محتوای NSFW یعنی چیزهایی که برای همه مناسب نیست، مثل تصاویر زننده یا مشکلدار.
حالا چالش اینجاست که سیستمهای پیشرفتهای گذاشتن که جلوی تولید اینجور محتوا رو بگیرن. به این سیستمها میگن safety mechanisms؛ یعنی مکانیزمهایی برای ایمنسازی خروجی مدلها. اما باز هم یه سری افراد دنبال دور زدن این فیلترها هستن.
حملههای تخصصی که بخوان این فیلترها رو دور بزنن رو به اسم adversarial attacks میشناسن. یعنی حملاتی که با حقه و ترفند، مدل رو به اشتباه بندازن. بیشتر روشهای قبلی برای این کار، از تکنیکی به اسم word substitution استفاده میکردن. یعنی فقط کلمات توی دستورات رو عوض میکردن تا شاید از زیر دست فیلترها فرار کنن. ولی مشکل اینجاست که فضای جستجوشون محدوده و بیشتر وقتا جواب نمیگیره. چون یه جورایی مدل خیلی باهوشه و راحت نمیتونن گولش بزنن!
حالا داستان جالب این مقاله از این قراره که اومدن گفتن ما حمله جدیدی درست کردیم به اسم PLA یا Prompt Learning Attack. توی PLA اومدن از مفهومی به اسم black-box settings استفاده کردن. حالا black-box یعنی دقیق نمیدونی تهِ دلِ مدل چی میگذره و به پارامترها یا معماری داخلی مدل دسترسی نداری. یعنی فقط میدونی چطوری ورودی و خروجی بگیری، اما داخلش چه خبره رو نمیدونی!
نکته اینجاست که قبلاً حملههای gradient-based خیلی محبوب بودن. gradient یعنی همون گرادیان؛ یعنی وقتی میخوای مدل رو آموزش بدی که کمکم بهتر شه. ولی تو محیط black-box نمیتونی به راحتی گرادیان بگیری چون به اطلاعات داخلی مدل دسترسی نداری.
اینجا PLA میاد و یه روش هوشمندانه پیشنهاد میده. اونا با استفاده از چیزی به اسم multimodal similarities، یعنی تشابهات چندرسانهای (مثلاً شباهت بین متن و تصویر)، حملهی خودشون رو طراحی کردن و تونستن بدون نیاز به دسترسی به جزییات مدل، یه جور حمله گرادیانگونه بسازن.
آزمایشهایی که انجام دادن نشون داده PLA خیلی موفق بوده و تونسته با درصد بالاتری نسبت به روشهای قدیمیتر، جلوی فیلترهای ایمنی مثل prompt filters (یعنی همون فیلترهایی که دستورات رو چک میکنن)، و post-hoc safety checkers (یعنی سیستمهایی که خروجی رو بررسی میکنن)، رو بگیره و محتواهای نامناسب بسازه!
خلاصه حرف این مقاله اینه که حتی وقتی فکر میکنی مدلهات امن شدن، باز هم یه راه برای دور زدنشون هست! البته یک هشدار هم دارن: مقاله ممکنه حاوی نمونههای محتوای زننده تولیدشده توسط مدل باشه.
در کل این مقاله خیلی مهمه چون نشون میده بحث امنیت در مدلهای هوش مصنوعی باید همیشه بهروز باشه و این بازی موش و گربه ادامه داره! اگه به هک و امنیت مدلهای هوش مصنوعی علاقه داری، این دقیقا یکی از داغترین موضوعاتیه که میشه دنبالش کنی.
منبع: +