هوش مصنوعی‌هایی که خودشون لیدر میشن: داستان یادگیری گروهی روبات‌ها با هم!

تا حالا به این فکر کردی که اگه چند تا ربات یا پهپاد (همون Droneها) قرار باشه خودشون یه کار بزرگ رو با هم انجام بدن، چطور باید تصمیم بگیرن که کی چی کار کنه؟ مثلاً توی دلیوری با پهپادها یا حتی اتوماسیون انبارها که ربات‌ها خودشون دور و بر قفسه‌ها بچرخن و وسایل رو جابه‌جا کنن. اینجور وقتا ما بهش میگیم سیستم چندعامله یا همون MAS (Multi-Agent Systems)، یعنی یه عالمه ربات یا عامل با هم کار می‌کنن.

حالا مسأله اینه که این ربات‌ها چجوری و بدون اینکه یکی روشون کنترل داشته باشه یا با هم حرف بزنن، بتونن خودشون تصمیم بگیرن، سهم خودشون رو انجام بدن و کار تیمیشون به اصطلاح پررو و «عاملانه» باشه. عاملانه یا agentic، یعنی اراده دارن، خودشون تصمیم می‌گیرن، از شرایط یاد می‌گیرن و برای هدفشون حرکت می‌کنن—مثل یه تیم فوتبالی که همه بازیکنا بدون نیاز به فریاد مربی حرکت درست رو تشخیص میدن.

توی این مقاله محقق‌ها اومدن روی همین موضوع کار کردن. هدف اصلی، بهتر کردن تخصیص کار (task allocation) و هماهنگی بین این ربات‌هاست. بیشترین تمرکزشون هم روی دلیوری با پهپادهاست، ولی این روش‌ها حسابی به درد اتوماسیون انبارها هم می‌خوره.

برای اینکه بتونیم چیز جدید و جالبی از ربات‌ها ببینیم، دانشمندها این مسأله رو به زبون یادگیری تقویتی همکاری چندعامله (cooperative multi-agent reinforcement learning یا MARL) فرمول‌بندی کردن. یادگیری تقویتی یعنی یه مدل هوش مصنوعی یاد می‌گیره با آزمون و خطا برنده بشه؛ هر وقت کار خوب می‌کنه، جایزه می‌گیره و از اشتباهاتش یاد می‌گیره.

اما بخش جذاب‌ترش جاییه که متود IPPO رو معرفی کردن، که یه جور بهبود یافته و سبک‌شده از الگوریتم معروف Proximal Policy Optimization یا PPO هست. این الگوریتم توی PyTorch پیاده‌سازی شده (PyTorch یعنی یه چارچوب برنامه‌نویسی محبوب برای ساخت مدل‌های هوش مصنوعی). کاری که IPPO می‌کنه اینه که آموزش توی یه مرکز انجام میشه، ولی وقتی ربات‌ها می‌رن توی دنیای واقعی، خودشون و کاملاً مستقل تصمیم می‌گیرن – به این می‌گن «آموزش متمرکز، اجرا غیرمتمرکز»!

برای آزمایش هم از محیط PettingZoo استفاده کردن؛ این یه پلتفرمه که چند تا عامل (مثل پهپادها) توش بدون اینکه بتونن با هم حرف بزنن یا اطلاعات به اشتراک بذارن، باید بدونن کدوم هدف رو بگیرن، یعنی خودشون حسابی باهوش شن و بتونن بدون مدیر یا صحبت اضافه، پروژه رو جلو ببرن.

خلاصه اگه بخوام جمع‌بندی کنم: این مقاله نشون میده چطور میشه یه جمع ربات با هوش مصنوعی عاملانه طراحی کرد که توی پروژه‌های واقعی مثل دلیوری و انبارداری، بدون نیاز به کنترل مرکزی یا حرف زدن با هم، خودشون وظایف‌شون رو پیدا و اجرا کنن و با هم هماهنگ شن! به قول معروف، لیدر خودشون میشن و یاد می‌گیرن چجوری تیمی کار کنن. هوش مصنوعی حالا دیگه واقعاً داره خودش رو «عامل» نشون میده!

منبع: +