اگه تو دنیای هوش مصنوعی و چتباتها گشتی زده باشی، حتماً برخوردهای به بحث امنیت محتوا تو مدلهای زبانی بزرگ یا همون LLMها (یعنی همون مدلهایی مثل ChatGPT که کلی داده یاد گرفتن تا بتونن مثل آدم حرف بزنن). معمولاً وقتی بحث امنیتشون میشه، میگن باید مطمئن باشن حرفی نمیزنن که قانون رو زیر پا بذاره یا مثلا خطرناک باشه.
حالا تا الان راههای متداول مثل «Supervised Fine-Tuning» (یعنی مدل رو با نظارت بیشتر و دادههای خاص دوباره آموزش میدن) یا RLHF (یعنی یادگیری با بازخورد مستقیم از کاربرهای واقعی) بودن که هردو یک مشکل داشتن: اینکه کنترل ریز و کارآمد بعد از راهاندازی مدل، آسون نبود و باید چند مرحله کار انجام میدادی تا مدل رو دقیقتر کنی.
اینجا داستانی که مقاله جدید arXiv:2508.14904v1 دربارهش صحبت میکنه، خیلی جذابه! نویسندهها یه روش جدید معرفی میکنن که کلی فرآیند رو سادهتر و قابل کنترلتر میکنه: میتونی سه حالت امنیتی متفاوت رو فقط در یک مرحله آموزش سفت و سخت (SFT) به مدل یاد بدی و بعداً هر موقع خواستی، خیلی ساده بینشون جابجا شی! این سه حالت هم اینا هستن:
- مثبت (یا همون رفتار امن و اجتماعی که انتظار داری چتبات داشته باشه)
- منفی (یعنی محدودیتی نداره و میتونه حرفهای ریسکدار یا غیرقابل قبول بزنه – مثلاً تو تست کردن داخلی شرکت)
- ریجکتیو یا ردکننده (یعنی مدل باهوشه و اگه حس کنه چیزی خطرناکه یا صلاح نیست، جواب نمیده)
حالا جادوی اصلی این روش «مجیک توکن» هست! مجیک توکن یعنی یه علامت یا دستور خیلی ساده و شبیه یک کلمه جادویی که به سیستم میدی و اون وقت مدل فوراً میفهمه باید با کدوم حالت جواب بده. مثلاً اگه تو حالت مثبت بذاریش، دیگه نگران امنیت محتوا نیستی و اگه بری روی حالت ریجکتیو، مدل خودش به محض اینکه سیگنال خطر از سیستمهای بالادستی (مثلاً یه نهاد نظارتی) بیاد، به طرف جواب نمیده.
این روش یه نکته دیگه هم داره که توی مقاله بهش اشاره شده: باعث میشه جوابهایی که مدل تولید میکنه واسه هر حالت کاملاً متمایز باشن. این یعنی چی؟ یعنی مثلاً کسی نمیتونه با کلک زدن یا دستکاری، مدل رو گول بزنه تا از یه حالت به حالت دیگه بپره، چون خروجیهاش برای هر بخش، فاصله خیلی واضحی داره. نویسندهها به این فاصله میگن “Safety Alignment Margin” – یعنی مدل مرزهای امنیتیاش رو به روشنی نشون میده و روی هر حالت کنترل دقیق داره.
طبق آزمایشهایی که انجام دادن، روش جدیدشون نه تنها کیفیت تطبیق امنیتیاش (یعنی انطباق خروجی با استانداردهای امنیت) مثل روشهای قبلی و پرهزینه مثل SFT به اضافه DPO (Direct Preference Optimization، یا همان بهینهسازی روی ترجیحات مستقیم کاربرها) عالی بوده، بلکه عملکرد مدل کوچکترشون (با فقط ۸ میلیارد پارامتر) حتی تو بخش امنیت از یک مدل غولپیکر دیگر (DeepSeek-R1 با ۶۷۱ میلیارد پارامتر!) هم بهتر بوده. شاخ درآوردی؟ تازه هزینه آموزش و استقرار این مدل خیلی پایینتر دراومده!
در کل، این روش جدید یه راهکار خیلی قوی، سریع و بهشدت قابل کنترل برای ایمن نگهداشتن چتباتها ارائه میده. مخصوصاً برای شرکتها یا برنامههایی که میخوان همزمان چند مدل رفتار امنیتی رو اجرا کنن یا لازم دارن بسته به نیاز، حالتهای مختلف امنیت رو سوییچ کنن، این روش حسابی کاربردی و آیندهداره! خلاصه از این به بعد امنیت هوش مصنوعی فقط با یه مجیک توکن راحت عوض میشه!
منبع: +