وقتی هوش مصنوعی راست می‌گفت، بعد با یه دستور گمراه‌کننده زد زیر همه‌چی!

Fall Back

خب، بیاید یه موضوع باحال و شاید حتی یکم ترسناک رو با هم زیر و رو کنیم: هوش مصنوعی‌های خیلی بزرگ (Large Language Models یا LLMها، مثل همین چت‌بات‌هایی که امروزه باهاشون حرف می‌زنیم) اصلاً چجوری می‌تونن با یه دستور گمراه‌کننده یا فریبنده، نگاهشون به یه موضوع رو عوض کنن؟ منظورم اینه که فرض کن شما یه سؤال واقعی و راست می‌پرسین و مدلتون هم یه جواب درست و حسابی میده. ولی حالا اگه با یه دستور فریب‌دهنده وارد شی، ناگهان می‌بینی همه معادلات عوض میشه و جواب، غلط یا حتی گمراه‌کننده درمیاد!

موضوع این مقاله دقیقاً راجع‌به همینه! محقق‌ها اومدن بررسی کنن که وقتی به یه مدل زبانی غول‌آسا مثل Llama-3.1-8B-Instruct یا Gemma-2-9B-Instruct یه دستور راست (یعنی همون truthful) یا یه دستور گمراه‌کننده (deceptive) میدی، دقیقاً داخل مدل چی اتفاق می‌افته. فقط هم به جواب آخر مدل نگاه نکردن؛ اومدن رفتن سراغ “نمایش‌های داخلی مدل” (Internal Representations)؛ یعنی اون چیزای مخفی و پیچیده‌ای که هوش مصنوعی تو مغزش موقع پردازش می‌سازه تا به جواب برسه.

یه نکته بامزه اینه که این نمایش‌های داخلی مدل رو با هم مقایسه کردن و دیدن که تحت تأثیر دستور گمراه‌کننده، کاملاً عوض می‌شن! ولی دستورات راست و خنثی (Neutral) تقریباً نمایش‌های مشابهی دارن. مثلاً اگه شما از مدل بخوای حقیقت رو بگه یا اصلاً مساله براش مهم نباشه، اون چیزی که تو مغزش می‌گذره تقریباً یکیه. ولی تا یه دستور فریبنده می‌دی، همه چی به هم می‌ریزه!

برای بررسی بهتر این جریان، محقق‌ها از ابزاری به اسم “Sparse Autoencoders” یا SAE استفاده کردن. SAE یه مدل هوش مصنوعیه که کمک می‌کنه بفهمیم اطلاعات مدل اصلی تو چه ویژگی‌ها و بُعدهایی ذخیره شده. خلاصه، با این روش کشف کردن که تغییرات توی نمایش مدل – مخصوصاً توی لایه‌های اولیه تا میانی – خیلی محسوسه و اون‌قدر ملموسه که حتی توی داده‌های سخت‌تر و پیچیده‌تر هم اتفاق می‌افته.

یه حرکت باحال دیگه‌شون این بود که اومدن بعضی از ویژگی‌های خیلی حساس به این تغییرات رو جدا کردن (یعنی همون بخش‌هایی از مدل که با دستور گمراه‌کننده انگار “چِرک‌خورده” می‌شن!). با ویژوالایزیشن (یعنی نشون دادن بصری داده‌ها) فهمیدن که فضای نمایشی مدل تو حالت راست و گمراه‌کننده کلی با هم فرق می‌کنه. این یعنی مسیر ذهنی مدل موقع جواب دادن به سؤال راست و سؤال فریبنده کاملاً از هم جداست.

در نهایت هم به این نتیجه رسیدن که میشه با علم به این تفاوت‌ها، مدل‌ها رو بهتر کنترل یا تشخیص داد که آیا دارن عمدی جواب دروغ یا گمراه‌کننده میدن یا نه. این خیلی موضوع مهمیه برای کسایی که دغدغه امنیت و کنترل هوش مصنوعی رو دارن.

به زبان ساده اگه بخوایم جمع‌بندی کنیم: مدل‌های زبانی بزرگ، تو ذهنشون وقتی با دستور فریبنده مواجه می‌شن، سبک فکر و نگاهشون تا لایه‌های عمیق داخلی، متحول میشه. تازه میشه این تغییر رو شناسایی کرد و شاید یه روز بتونیم جلوی مدل‌های “دروغگو” رو بگیریم!

پس دفعه بعدی که با یه هوش مصنوعی حرف میزنی، بدون که یه عالمه اتفاق تو سرش داره می‌افته… مخصوصاً اگه بخوای کلکش بزنی!

منبع: +