تا حالا به این فکر کردی که اگه چند تا ربات یا پهپاد (همون Droneها) قرار باشه خودشون یه کار بزرگ رو با هم انجام بدن، چطور باید تصمیم بگیرن که کی چی کار کنه؟ مثلاً توی دلیوری با پهپادها یا حتی اتوماسیون انبارها که رباتها خودشون دور و بر قفسهها بچرخن و وسایل رو جابهجا کنن. اینجور وقتا ما بهش میگیم سیستم چندعامله یا همون MAS (Multi-Agent Systems)، یعنی یه عالمه ربات یا عامل با هم کار میکنن.
حالا مسأله اینه که این رباتها چجوری و بدون اینکه یکی روشون کنترل داشته باشه یا با هم حرف بزنن، بتونن خودشون تصمیم بگیرن، سهم خودشون رو انجام بدن و کار تیمیشون به اصطلاح پررو و «عاملانه» باشه. عاملانه یا agentic، یعنی اراده دارن، خودشون تصمیم میگیرن، از شرایط یاد میگیرن و برای هدفشون حرکت میکنن—مثل یه تیم فوتبالی که همه بازیکنا بدون نیاز به فریاد مربی حرکت درست رو تشخیص میدن.
توی این مقاله محققها اومدن روی همین موضوع کار کردن. هدف اصلی، بهتر کردن تخصیص کار (task allocation) و هماهنگی بین این رباتهاست. بیشترین تمرکزشون هم روی دلیوری با پهپادهاست، ولی این روشها حسابی به درد اتوماسیون انبارها هم میخوره.
برای اینکه بتونیم چیز جدید و جالبی از رباتها ببینیم، دانشمندها این مسأله رو به زبون یادگیری تقویتی همکاری چندعامله (cooperative multi-agent reinforcement learning یا MARL) فرمولبندی کردن. یادگیری تقویتی یعنی یه مدل هوش مصنوعی یاد میگیره با آزمون و خطا برنده بشه؛ هر وقت کار خوب میکنه، جایزه میگیره و از اشتباهاتش یاد میگیره.
اما بخش جذابترش جاییه که متود IPPO رو معرفی کردن، که یه جور بهبود یافته و سبکشده از الگوریتم معروف Proximal Policy Optimization یا PPO هست. این الگوریتم توی PyTorch پیادهسازی شده (PyTorch یعنی یه چارچوب برنامهنویسی محبوب برای ساخت مدلهای هوش مصنوعی). کاری که IPPO میکنه اینه که آموزش توی یه مرکز انجام میشه، ولی وقتی رباتها میرن توی دنیای واقعی، خودشون و کاملاً مستقل تصمیم میگیرن – به این میگن «آموزش متمرکز، اجرا غیرمتمرکز»!
برای آزمایش هم از محیط PettingZoo استفاده کردن؛ این یه پلتفرمه که چند تا عامل (مثل پهپادها) توش بدون اینکه بتونن با هم حرف بزنن یا اطلاعات به اشتراک بذارن، باید بدونن کدوم هدف رو بگیرن، یعنی خودشون حسابی باهوش شن و بتونن بدون مدیر یا صحبت اضافه، پروژه رو جلو ببرن.
خلاصه اگه بخوام جمعبندی کنم: این مقاله نشون میده چطور میشه یه جمع ربات با هوش مصنوعی عاملانه طراحی کرد که توی پروژههای واقعی مثل دلیوری و انبارداری، بدون نیاز به کنترل مرکزی یا حرف زدن با هم، خودشون وظایفشون رو پیدا و اجرا کنن و با هم هماهنگ شن! به قول معروف، لیدر خودشون میشن و یاد میگیرن چجوری تیمی کار کنن. هوش مصنوعی حالا دیگه واقعاً داره خودش رو «عامل» نشون میده!
منبع: +