اگه یه کم اخبار تکنولوژی رو دنبال کرده باشی، احتمالاً از هوش مصنوعیهای زبانی بزرگ یا همون Large Language Models (که به اختصار بهشون میگیم LLM) شنیدی. این مدلها توی تحقیقات پزشکی و زیستی دیگه دارن خیلی جا باز میکنن. مثلاً توانایی تولید فرضیات علمی، خلاصه کردن مقالهها یا حتی کمک توی طراحی آزمایش رو دارن. ولی خب، هر چی استفادهشون بیشتر میشه، رسماً خطراشون هم بیشتر میشه! مخصوصاً بحث سوءاستفاده از این مدلها، مثلاً راهنمایی برای ساخت مواد خطرناک یا سمی. خلاصه اینکه نگرانیها زیاد شده.
یه تیم تحقیقاتی اومده یه راهحل جالب پیشنهاد داده که خودشون اسمش رو گذاشتن “Biosecurity Agent”، یا به فارسیِ خودمونی، مأمور امنیت زیستی! این مامور هوشمند، چهار مرحله یا حالت مختلف داره که میخواد از اول تا آخر عمر مدل هوش مصنوعی (Lifecycle) مواظبش باشه تا کسی نتونه سوءاستفاده کنه.
حالا هر کدوم از این چهار حالت چیه؟
۱. پاکسازی دیتاست (Dataset Sanitization): یعنی همون اول کار، وقتی مدل رو آموزش میدن، میرن دیتای آموزشی رو میگردن و هر چیزی که فکر میکنن خطرناکه یا میشه ازش سوءاستفاده کرد، حذف میکنن. مثلاً روی یک دیتاست بزرگ با موضوع کرونا به اسم CORD-19 تست کردن و سه درجه پاکسازی تعریف کردن: L1 (خیلی دقیق و جمعوجور)، L2 (یه مقدار گستردهتر با کلمات مربوط به امنیت زیستی که توسط انسان انتخاب شدن)، L3 (خیلی کامل و همهجانبه). میزان حذف اطلاعات هم از ۰.۴۶٪ توی سطح L1 شروع میشه و تا ۷۰.۴٪ میرسه توی L3! یعنی میبینی هرچی سختگیرتر بگیری، دیتای بیشتری حذف میشه و شاید یه سری اطلاعات خوب هم از بین بره. این همون “trade-off” یا تعادل بین امنیت و مفیدبودنه.
۲. تنظیم ترجیحات مدل (Preference Alignment): یعنی مدل رو طوری آموزش میدن که موقع روبهرو شدن با درخواست خطرناک، جواب مناسب یا رد بده. اینجا از یه روش به اسم DPO و LoRA Adapter استفاده کردن (این LoRA Adapter یه تکنیکیه که به مدل کمک میکنه راحتتر و کمهزینهتر بتونن تنظیمش کنن). نتیجهش چی شده؟ نرخ موفقیت کسی که میخواسته حمله کنه یا مدل رو دور بزنه (Attack Success Rate یا ASR) از ۵۹.۷٪ به فقط ۳٪ رسیده! یعنی تقریباً مدل دیگه گول نمیخوره و اجازه نمیده اطلاعات خطرناک تولید بشه.
۳. حفاظهای زمان اجرا (Run-time Guardrails): تازه وقتی مدل آماده استفاده شد و کسی داره باهاش کار میکنه، باز هم یه حفاظ دیگه سر راه جوابهاش میذارن تا دوباره اگر کسی خواست راه میانبر بزنه جلوی خود مدل رو بگیره! بازم همون سه سطح L1 تا L3 رو دارن. سطح L2 به نظرشون بهترین تعادل بین عملکرد و امنیت رو داشته (F1=۰.۷۲۰ که یه معیار برای دقت و کامل بودن مدل حساب میشه)، جمع بودن دادهها (precision=۰.۹۰۰)، شناسایی درست حملات (recall=۰.۶۰۰) و درصد خطای کم (FPR=۰.۰۶۷). اما سطح L3 خیلی مقاوم شده ولی خب، گاهی اطلاعات خوب رو هم حذف میکنه. اینجا هم همون بحث trade-off بین امنیت خیلی زیاد و کاربرپسندی وجود داره.
۴. حمله خودکار و تست امنیت دائمی (Automated Red Teaming): یعنی یک سیستم خودشون گذاشتن که مرتب و خودکار سعی کنه مدل رو هک کنه یا دستکاری کنه (مثلاً ببینه آیا مدل حرف خطرناک میزنه؟). این کار باعث میشه همیشه مدل رو محک بزنن به امید اینکه هیچوقت راه دور زدنش پیدا نشه. خوشبختانه هیچ حملهای به مدل موفق نبوده تا الان!
در مجموع، این Biosecurity Agent یا همون مامور امنیتی زیستی، یه چارچوب کامل و قابل بررسی برای سالم نگه داشتن مدلهای زبانی در تحقیقات علمی فراهم میکنه. یعنی هم جلوی حمله و سوءاستفاده رو میگیره و هم سعی میکنه اطلاعات مفید مدل رو حفظ کنه. این کار میتونه برای آیندهمون خیلی حیاتی باشه و یه جور استاندارد جدید برای محافظت از هوش مصنوعی تو علوم مختلف بزاره. خلاصه اینکه با این راهکار میشه مطمئنتر از هوش مصنوعی توی علوم پزشکی و زیستی استفاده کرد، بدون اینکه نگرانی امنیتی زیادی پشت ذهنمون باشه!
منبع: +