چطور هوش مصنوعی با کمک مدل‌های زبانی بزرگ می‌تونه تصمیم‌های بهتری تو امنیت سایبری بگیره؟

خب، بیاید راجع به یه موضوع خیلی خفن تو دنیای امنیت سایبری حرف بزنیم: این‌که چطور می‌تونیم هوش مصنوعی رو طوری آموزش بدیم که خودش بتونه به شکل خودکار و هوشمند، تصمیم‌های خیلی خوبی توی دفاع از سیستم‌ها بگیره.

اول بذار با مفهوم اصلی شروع کنیم: Reinforcement Learning یا همون یادگیری تقویتی. این یه جور از یادگیری هوش مصنوعیه که توش یه عامل (عامل یعنی agent) میره و با محیطش تعامل می‌کنه. مثلاً توی یه بازی یا یه سیستم امنیتی، کارهایی انجام می‌ده و بسته به نتیجه، یه جایزه یا جریمه می‌گیره. بعد کم کم یاد می‌گیره چه کارهایی بهتر جواب می‌دن. اما مشکلش اینه که این عامل‌ها باید اولش مثل بچه‌های تازه‌کار، خودشون همه چی رو امتحان کنن و بعضی وقتا کلی کار اشتباه (و حتی بد!) بکنن تا بفهمن چی خوبه و چی بد.

حالا توی این تحقیق یه ایده خیلی باحال مطرح شده: اگه به این عامل‌های یادگیری تقویتی، اطلاعات بیرونی بدیم چی میشه؟ منظور از «اطلاعات بیرونی»، استفاده از مدل‌های زبانی بزرگ یا همون Large Language Models (LLMها) هست. اینا همون هوش مصنوعی‌های خیلی عظیم هستن که با کلی داده آموزش دیدن و می‌تونن چیزهای زیادی بفهمن و توضیح بدن. مثلاً ChatGPT خودش یه LLM حساب میشه!

تو این مقاله اومدن یه LLM رو که کلی داده‌ی امنیت سایبری بهش خورونده بودن، قاطی کار عامل یادگیری تقویتی کردن؛ یعنی موقع آموزش، مدل زبانی به عامل یادگیری تقویتی کمک می‌کرد تا تصمیم‌های بهتری بگیره و اشتباهات خیلی خنده‌دار (یا خطرناک) نکنه.

چرا این کار باحاله؟ چون قبلاً عامل یادگیری تقویتی مجبور بود کلی راه غلط بره تا بفهمه کدوم حرکت اشتباس. ولی حالا، LLM به نقش یه راهنما وارد میشه و کمکش می‌کنه زودتر مسیر درست رو پیدا کنه. نتیجه‌ش اینه که:

عامل ما توی مرحله‌ی اولیه آموزش، بیش از دوبرابر پاداش (یعنی امتیاز مثبت) نسبت به حالت عادی می‌گیره.
لازم نیست کلی حرکت بیخود رو انجام بده تا فقط از اشتباه کردن یاد بگیره.
چیزی حدود ۴۵۰۰ اپیزود (یا همون مرحله‌ی تمرینی) زودتر به نتایج خوب می‌رسه!

همه این‌ها رو توی یه محیط شبیه‌سازی شده‌ی امنیت سایبری آزمایش کردن و نشون دادن که مدل تلفیقی (یعنی ترکیب RL و LLM) خیلی بهتر از مدل پایه کار می‌کنه.

خلاصه‌ش میشه این: اگه بخوایم عامل‌های هوشمند توی عملیات امنیت سایبری خودکار (که بهش میگن Autonomous Cyber Operations یا ACO) خیلی سریع‌تر و باهوش‌تر بشن، این راه – یعنی کمک گرفتن از مدل‌های زبانی بزرگ – واقعاً جواب می‌ده! دیگه لازم نیست کلی گزینه رو از روی سعی و خطا امتحان کنن، چون تقریباً یه مربی باحال بالا سرشونه که قبلاً خودش کلی چیز یاد گرفته و الان تجربه‌ش رو دو دستی ارائه می‌کنه!

اگه با این مفاهیم تازه آشنا شدی، اینو بدون که ترکیب این دو نوع هوش مصنوعی (یادگیری تقویتی + مدل زبانی) می‌تونه آینده امنیت سایبری رو کلی تغییر بده؛ و مطمئناً تو سالای آینده بیشتر از این‌ها خواهیم شنید!

منبع: +