یه مامور امنیتی برای سالم نگه داشتن هوش مصنوعی‌های زبانی توی کارهای پزشکی!

Fall Back

اگه یه کم اخبار تکنولوژی رو دنبال کرده باشی، احتمالاً از هوش مصنوعی‌های زبانی بزرگ یا همون Large Language Models (که به اختصار بهشون میگیم LLM) شنیدی. این مدل‌ها توی تحقیقات پزشکی و زیستی دیگه دارن خیلی جا باز می‌کنن. مثلاً توانایی تولید فرضیات علمی، خلاصه کردن مقاله‌ها یا حتی کمک توی طراحی آزمایش رو دارن. ولی خب، هر چی استفاده‌شون بیشتر میشه، رسماً خطراشون هم بیشتر میشه! مخصوصاً بحث سوءاستفاده از این مدل‌ها، مثلاً راهنمایی برای ساخت مواد خطرناک یا سمی. خلاصه اینکه نگرانی‌ها زیاد شده.

یه تیم تحقیقاتی اومده یه راه‌حل جالب پیشنهاد داده که خودشون اسمش رو گذاشتن “Biosecurity Agent”، یا به فارسیِ خودمونی، مأمور امنیت زیستی! این مامور هوشمند، چهار مرحله یا حالت مختلف داره که می‌خواد از اول تا آخر عمر مدل هوش مصنوعی (Lifecycle) مواظبش باشه تا کسی نتونه سوءاستفاده کنه.

حالا هر کدوم از این چهار حالت چیه؟

۱. پاکسازی دیتاست (Dataset Sanitization): یعنی همون اول کار، وقتی مدل رو آموزش می‌دن، میرن دیتای آموزشی رو می‌گردن و هر چیزی که فکر می‌کنن خطرناکه یا می‌شه ازش سوءاستفاده کرد، حذف می‌کنن. مثلاً روی یک دیتاست بزرگ با موضوع کرونا به اسم CORD-19 تست کردن و سه درجه پاکسازی تعریف کردن: L1 (خیلی دقیق و جمع‌وجور)، L2 (یه مقدار گسترده‌تر با کلمات مربوط به امنیت زیستی که توسط انسان انتخاب شدن)، L3 (خیلی کامل و همه‌جانبه). میزان حذف اطلاعات هم از ۰.۴۶٪ توی سطح L1 شروع میشه و تا ۷۰.۴٪ می‌رسه توی L3! یعنی می‌بینی هرچی سخت‌گیرتر بگیری، دیتای بیشتری حذف میشه و شاید یه سری اطلاعات خوب هم از بین بره. این همون “trade-off” یا تعادل بین امنیت و مفیدبودنه.

۲. تنظیم ترجیحات مدل (Preference Alignment): یعنی مدل رو طوری آموزش می‌دن که موقع روبه‌رو شدن با درخواست خطرناک، جواب مناسب یا رد بده. اینجا از یه روش به اسم DPO و LoRA Adapter استفاده کردن (این LoRA Adapter یه تکنیکیه که به مدل کمک می‌کنه راحت‌تر و کم‌هزینه‌تر بتونن تنظیمش کنن). نتیجه‌ش چی شده؟ نرخ موفقیت کسی که می‌خواسته حمله کنه یا مدل رو دور بزنه (Attack Success Rate یا ASR) از ۵۹.۷٪ به فقط ۳٪ رسیده! یعنی تقریباً مدل دیگه گول نمی‌خوره و اجازه نمیده اطلاعات خطرناک تولید بشه.

۳. حفاظ‌های زمان اجرا (Run-time Guardrails): تازه وقتی مدل آماده استفاده شد و کسی داره باهاش کار می‌کنه، باز هم یه حفاظ دیگه سر راه جواب‌هاش می‌ذارن تا دوباره اگر کسی خواست راه میانبر بزنه جلوی خود مدل رو بگیره! بازم همون سه سطح L1 تا L3 رو دارن. سطح L2 به نظرشون بهترین تعادل بین عملکرد و امنیت رو داشته (F1=۰.۷۲۰ که یه معیار برای دقت و کامل بودن مدل حساب میشه)، جمع بودن داده‌ها (precision=۰.۹۰۰)، شناسایی درست حملات (recall=۰.۶۰۰) و درصد خطای کم (FPR=۰.۰۶۷). اما سطح L3 خیلی مقاوم شده ولی خب، گاهی اطلاعات خوب رو هم حذف می‌کنه. اینجا هم همون بحث trade-off بین امنیت خیلی زیاد و کاربرپسندی وجود داره.

۴. حمله خودکار و تست امنیت دائمی (Automated Red Teaming): یعنی یک سیستم خودشون گذاشتن که مرتب و خودکار سعی کنه مدل رو هک کنه یا دستکاری کنه (مثلاً ببینه آیا مدل حرف خطرناک میزنه؟). این کار باعث میشه همیشه مدل رو محک بزنن به امید اینکه هیچ‌وقت راه دور زدنش پیدا نشه. خوشبختانه هیچ حمله‌ای به مدل موفق نبوده تا الان!

در مجموع، این Biosecurity Agent یا همون مامور امنیتی زیستی، یه چارچوب کامل و قابل بررسی برای سالم نگه داشتن مدل‌های زبانی در تحقیقات علمی فراهم می‌کنه. یعنی هم جلوی حمله و سوءاستفاده رو می‌گیره و هم سعی می‌کنه اطلاعات مفید مدل رو حفظ کنه. این کار می‌تونه برای آینده‌مون خیلی حیاتی باشه و یه جور استاندارد جدید برای محافظت از هوش مصنوعی تو علوم مختلف بزاره. خلاصه اینکه با این راهکار میشه مطمئن‌تر از هوش مصنوعی توی علوم پزشکی و زیستی استفاده کرد، بدون اینکه نگرانی امنیتی زیادی پشت ذهنمون باشه!

منبع: +