آنتروپیک با سیستم جدید، دفاع در برابر جیلبریک هوش مصنوعی را تقویت می‌کند

دفاع پیشرفته در برابر جیلبریک هوش مصنوعی

شرکت آنتروپیک از یک سیستم دفاعی پیشرفته برای مقابله با جیلبریک مدل‌های زبان بزرگ (LLM) رونمایی کرده است. این فناوری با بهره‌گیری از یک فیلتر ویژه، سؤالات مضر را پیش از رسیدن به مدل Claude مسدود می‌کند. آزمایش‌های گسترده، از جمله اجرای برنامه‌ی کشف باگ همراه با جایزه، نشان‌دهنده‌ی عملکرد امیدوارکننده‌ی این روش است، هرچند هیچ سیستمی کاملاً بی‌نقص نیست.

لایه‌ای جدید برای دفاع در برابر جیلبریک هوش مصنوعی

شرکت امنیت هوش مصنوعی آنتروپیک، راهکار جدیدی برای محافظت از مدل‌های زبان بزرگ (LLM) در برابر حملات جیلبریک ارائه داده است. جیلبریک روشی است که برای فریب هوش مصنوعی و دور زدن محدودیت‌های آن طراحی شده. این سیستم حفاظتی جدید مثل یک فیلتر خارجی عمل می‌کند و مدل اصلی را تغییر نمی‌دهد. هدف این فیلتر، جلوگیری از رسیدن دستورات مخرب به سیستم است.

چالش جیلبریک

جیلبریک یک آسیب‌پذیری شناخته‌شده در سیستم‌های هوش مصنوعی است. این آسیب‌پذیری به کاربران اجازه می‌دهد مدل‌ها را برای تولید محتوای ممنوعه دستکاری کنند. مهاجمان می‌توانند از دستورات هوشمندانه، تکنیک‌های ایفای نقش یا قالب‌بندی غیرمعمول متن برای دور زدن حفاظ‌ها استفاده کنند. برخی از این تاکتیک‌ها به‌طور نگران‌کننده‌ای موثر بوده‌اند. این موضوع نگرانی‌هایی را در مورد خطرات پاسخ‌های نامحدود هوش مصنوعی، به‌ویژه در حوزه‌های حساسی مثل توسعه‌ی سلاح، ایجاد کرده است.

آنتروپیک به‌طور خاص بر مسدود کردن چیزی تمرکز دارد که «جیلبریک جهانی» می‌نامد. جیلبریک جهانی حملاتی است که می‌توانند مکانیسم‌های ایمنی یک مدل را به‌طور کامل از کار بیندازد. یک نمونه‌ی رایج، اکسپلویت “هر کاری را همین الان انجام بده” (Do Anything Now یا DAN) است. این اکسپلویت، هوش مصنوعی را فریب می‌دهد تا محدودیت‌های اخلاقی خود را کاملاً نادیده بگیرد.

نحوه‌ی عملکرد سپر آنتروپیک

آنتروپیک به‌جای تلاش برای ایمن‌سازی ذاتی مدل‌های خود در برابر جیلبریک (چالشی که بیش از یک دهه محققان را ناکام گذاشته است)، یک سیستم فیلترینگ خارجی ساخته است. این سپر، دستورات ورودی و پاسخ‌های خروجی را بررسی می‌کند. هر دستوری که شبیه تلاش برای جیلبریک باشد، مسدود می‌شود.

آنتروپیک برای توسعه‌ی این فیلتر، مجموعه‌ی داده‌ی بسیار بزرگی از پرسش‌های قابل قبول و غیرقابل قبول ایجاد کرد. این دستورات به چندین زبان ترجمه و با استفاده از تکنیک‌های رایج جیلبریک اصلاح شدند تا استحکام فیلتر تضمین شود. سپس این شرکت فیلتر را روی این مجموعه‌ی داده‌ی مصنوعی آموزش داد تا اکسپلویت‌های بالقوه را شناسایی و متوقف کند.

آزمایش سپر

آنتروپیک برای ارزیابی effectiveness سپر خود، از متخصصان امنیتی دعوت کرد تا در یک برنامه‌ی پاداش برای یافتن باگ شرکت کنند. به شرکت‌کنندگان ده سوال ممنوعه داده شد. اگر Claude به همه‌ی این سوال‌ها پاسخ می‌داد، ۱۵۰۰۰ دلار جایزه می‌گرفتند. با وجود بیش از ۳۰۰۰ ساعت آزمایش توسط ۱۸۳ نفر، هیچ‌کس نتوانست به‌طور کامل سپر را دور بزند؛ هرچند برخی موفق به دریافت پاسخ‌های ناقص شدند.

این شرکت همچنین آزمایش‌های استرس خودکار را با استفاده از ۱۰۰۰۰ دستور جیلبریک تولید شده توسط یک مدل هوش مصنوعی دیگر انجام داد. بدون سپر، ۸۶٪ از این حملات موفقیت‌آمیز بودند. با وجود سپر، تنها ۴.۴٪ از حملات موفق بودند. این نتایج، کاهش قابل توجهی در آسیب‌پذیری در مقایسه با اکثر سیستم‌های دفاعی موجود را نشان می‌دهد.

نقاط قوت و محدودیت‌ها

در حالی که رویکرد آنتروپیک پیشرفت بزرگی است، هیچ سیستم امنیتی بی‌نقص نیست. برخی از محققان اشاره کرده‌اند که فیلتر گاهی اوقات پرسش‌های بی‌ضرر مربوط به زیست‌شناسی و شیمی را مسدود می‌کند. این موضوع قابلیت استفاده از مدل را در سناریوهای مشروع محدود می‌کند. علاوه بر این، اجرای سپر باعث افزایش ۲۵ درصدی هزینه‌ی محاسبات می‌شود که هزینه‌ای برای افزایش امنیت است.

کارشناسان معتقدند که با پیشرفت مدل‌های هوش مصنوعی، تکنیک‌های جدید جیلبریک هم ظهور خواهند کرد. روش‌هایی مانند رمزگذاری دستورات با استفاده از رمزها می‌تواند به‌طور بالقوه از سیستم‌های دفاعی فعلی عبور کند. این مبارزه‌ی مداوم، نیاز به به‌روزرسانی‌های پیوسته و استراتژی‌های امنیتی انعطاف‌پذیر را برجسته می‌کند.

آینده‌ی امنیت هوش مصنوعی

با افزایش قابلیت‌های هوش مصنوعی، خطرات سوءاستفاده از آن نیز افزایش می‌یابد. سپر آنتروپیک گامی پیشگیرانه برای ایمن‌تر کردن LLMها است، اما این واقعیت را نیز نشان می‌دهد که هیچ سیستمی کاملاً در برابر حملات نفوذناپذیر نیست. این شرکت از محققان و کاربران دعوت می‌کند تا به آزمایش سیستم‌های دفاعی آن ادامه دهند و این ایده را تقویت کنند که امنیت یک راه‌حل یک‌باره نیست، بلکه یک تلاش مداوم است.

آنتروپیک با استفاده از داده‌های مصنوعی و آزمایش در مقیاس بزرگ، معیار جدیدی برای امنیت هوش مصنوعی تعیین کرده است. با این حال، با ادامه‌ی بازی موش و گربه بین مهاجمان و مدافعان، این حوزه باید هوشیار بماند و دائماً حفاظ‌ها را بهبود دهد تا از تهدیدات جدید جلوتر باشد.

اگر به خواندن کامل این مطلب علاقه‌مندید، روی لینک مقابل کلیک کنید: mit technology review