کنترل راحت و سریع امنیت چت‌بات‌ها با جادوی «مجیک توکن»!

اگه تو دنیای هوش مصنوعی و چت‌بات‌ها گشتی زده باشی، حتماً برخورده‌ای به بحث امنیت محتوا تو مدل‌های زبانی بزرگ یا همون LLMها (یعنی همون مدل‌هایی مثل ChatGPT که کلی داده یاد گرفتن تا بتونن مثل آدم حرف بزنن). معمولاً وقتی بحث امنیتشون میشه، میگن باید مطمئن باشن حرفی نمی‌زنن که قانون رو زیر پا بذاره یا مثلا خطرناک باشه.

حالا تا الان راه‌های متداول مثل «Supervised Fine-Tuning» (یعنی مدل رو با نظارت بیشتر و داده‌های خاص دوباره آموزش می‌دن) یا RLHF (یعنی یادگیری با بازخورد مستقیم از کاربرهای واقعی) بودن که هردو یک مشکل داشتن: اینکه کنترل ریز و کارآمد بعد از راه‌اندازی مدل، آسون نبود و باید چند مرحله کار انجام می‌دادی تا مدل رو دقیق‌تر کنی.

اینجا داستانی که مقاله جدید arXiv:2508.14904v1 درباره‌ش صحبت می‌کنه، خیلی جذابه! نویسنده‌ها یه روش جدید معرفی می‌کنن که کلی فرآیند رو ساده‌تر و قابل کنترل‌تر می‌کنه: می‌تونی سه حالت امنیتی متفاوت رو فقط در یک مرحله آموزش سفت و سخت (SFT) به مدل یاد بدی و بعداً هر موقع خواستی، خیلی ساده بینشون جابجا شی! این سه حالت هم اینا هستن:

مثبت (یا همون رفتار امن و اجتماعی که انتظار داری چت‌بات داشته باشه)
منفی (یعنی محدودیتی نداره و می‌تونه حرف‌های ریسک‌دار یا غیرقابل قبول بزنه – مثلاً تو تست کردن داخلی شرکت)
ریجکتیو یا ردکننده (یعنی مدل باهوشه و اگه حس کنه چیزی خطرناکه یا صلاح نیست، جواب نمی‌ده)

حالا جادوی اصلی این روش «مجیک توکن» هست! مجیک توکن یعنی یه علامت یا دستور خیلی ساده و شبیه یک کلمه جادویی که به سیستم می‌دی و اون وقت مدل فوراً می‌فهمه باید با کدوم حالت جواب بده. مثلاً اگه تو حالت مثبت بذاریش، دیگه نگران امنیت محتوا نیستی و اگه بری روی حالت ریجکتیو، مدل خودش به محض اینکه سیگنال خطر از سیستم‌های بالادستی (مثلاً یه نهاد نظارتی) بیاد، به طرف جواب نمی‌ده.

این روش یه نکته دیگه هم داره که توی مقاله بهش اشاره شده: باعث می‌شه جواب‌هایی که مدل تولید می‌کنه واسه هر حالت کاملاً متمایز باشن. این یعنی چی؟ یعنی مثلاً کسی نمی‌تونه با کلک زدن یا دستکاری، مدل رو گول بزنه تا از یه حالت به حالت دیگه بپره، چون خروجی‌هاش برای هر بخش، فاصله خیلی واضحی داره. نویسنده‌ها به این فاصله می‌گن “Safety Alignment Margin” – یعنی مدل مرزهای امنیتی‌اش رو به روشنی نشون می‌ده و روی هر حالت کنترل دقیق داره.

طبق آزمایش‌هایی که انجام دادن، روش جدیدشون نه تنها کیفیت تطبیق امنیتی‌اش (یعنی انطباق خروجی با استانداردهای امنیت) مثل روش‌های قبلی و پرهزینه مثل SFT به اضافه DPO (Direct Preference Optimization، یا همان بهینه‌سازی روی ترجیحات مستقیم کاربرها) عالی بوده، بلکه عملکرد مدل کوچک‌ترشون (با فقط ۸ میلیارد پارامتر) حتی تو بخش امنیت از یک مدل غول‌پیکر دیگر (DeepSeek-R1 با ۶۷۱ میلیارد پارامتر!) هم بهتر بوده. شاخ درآوردی؟ تازه هزینه آموزش و استقرار این مدل خیلی پایین‌تر دراومده!

در کل، این روش جدید یه راهکار خیلی قوی، سریع و به‌شدت قابل کنترل برای ایمن نگه‌داشتن چت‌بات‌ها ارائه می‌ده. مخصوصاً برای شرکت‌ها یا برنامه‌هایی که می‌خوان همزمان چند مدل رفتار امنیتی رو اجرا کنن یا لازم دارن بسته به نیاز، حالت‌های مختلف امنیت رو سوییچ کنن، این روش حسابی کاربردی و آینده‌داره! خلاصه از این به بعد امنیت هوش مصنوعی فقط با یه مجیک توکن راحت عوض میشه!

منبع: +