داستان امروز قصه نجات یکی از حیوانات خاص ایران یعنی یوزپلنگ ایرانیه که متاسفانه در خطر انقراضه و کلی آدم با دل و جون دارن تلاش میکنن جلوی شکارچیهای غیرقانونی رو بگیرن. اما اینبار پای تکنولوژی و هوش مصنوعی واقعاً باحال و خلاقانهای وسطه که شاید حتی تو فیلمهای علمی تخیلی هم چنین چیزی ندیده باشی!
ماجرا از این قراره که یه تیم پژوهشی باحال تصمیم گرفتن از پهپادها – همون UAVها یعنی “وسیلههای پرنده بدون سرنشین” که میتوند خودشون رو کنترل کنن و پرواز کنن – برای گشتزنی و مراقبت از مناطق حفاظت شده یوزپلنگ استفاده کنن. حالا چیزی که بازی رو خیلی جالب میکنه، استفاده از هوش مصنوعی در قالب «یادگیری تقویتی چندعاملی» یا همون Multi-Agent Reinforcement Learning (MARL) هست. بزار ساده بگم: یادگیری تقویتی یعنی یه الگوریتم، با آزمون و خطا و کلنجار رفتن با محیط، یاد میگیره که بهترین تصمیم رو برای رسیدن به هدفش بگیره. حالا وقتی چندتا عامل (یا Agent) مثل همین پهپادها دارن با هم کار میکنن و باید هماهنگ باشن، میشه همون MARL.
اما سختترین بخش ماجرا اینه که تو دنیای واقعی همیشه همهچیز واضح و قابل دیدن نیست. خیلی چیزها هست که پشت صحنه مخفیه؛ مثلاً مسیر شکارچیها یا رفتار حیوانات و اتفاقات غیرمنتظرهای که رخ میده. اینجا بحث “متغیرهای نهان” یا Latent Variables پیش میاد. متغیر نهان یعنی یه چیزی که مستقیماً قابل مشاهده نیست اما روی نتیجه نهایی کلی تاثیر داره. مثلاً تو کلاس وقتی استرس داری، اون استرس یه متغیر نهان میشه که روی عملکردت تاثیر میذاره بدون اینکه معلم مستقیم اون رو ببینه!
توی این تحقیق، اومدن با یک روش هوشمند به اسم “انتظارات-بیشینهسازی” یا Expectation-Maximization (EM) کار کردن. بیاین خیلی ساده توضیحش بدم: EM یه راه واسه فهمیدن بهتر چیزهای پنهان توی دادههامونه، انگار که داری کمکم از شواهد آشکار، رازهای پشت پرده رو حدس میزنی.
پس این تیم، مدل EM رو با اون روش یادگیری تقویتیِ چندپهپادی ترکیب کردن و یک سیستم طراحی کردن که هم میتونه فاکتورهای پنهان محیط رو کشف کنه، هم هماهنگی عالی بین پهپادها ایجاد کنه تا وقتی یه اتفاق غیرمنتظره افتاد، سریعاً با محیط سازگار بشه و راه حل انتخاب کنه.
واسه تست این ایده، یه شبیهساز درست کردن که توش دهتا پهپاد توی منطقهی مخصوص حفاظت از یوزپلنگ ایرانی مشغول گشتزنی میشن. وقتی نتیجهها رو با الگوریتمهای معروف دیگه مثل PPO (Proximal Policy Optimization، یه الگوریتم رایج در یادگیری تقویتی که به مدل کمک میکنه تصمیمهای خوبی در محیط بگیره) و DDPG (Deep Deterministic Policy Gradient، یکی دیگه از الگوریتمهای قویِ یادگیری تصمیمگیری) مقایسه کردن، مدل EM-MARL با اختلاف جلو افتاده. یعنی دقت بیشتری در پیدا کردن شکارچیها، یاد گرفتن سریعتر، و سازگاری بهتر با شرایط محیطی داشته.
این نتیجه نشون داد که ترکیب تکنیک EM با یادگیری تقویتی میتونه تصمیمگیری غیرمتمرکز رو در موقعیتهای واقعی، حساس و پیچیده، به طرز فوقالعادهای تقویت کنه؛ مخصوصاً جاهایی که قرار میلیونها تومان خرج محافظت از طبیعت بشه.
اکثر بچههای علاقهمند به این حوزه میدونن چقدر اذیتکنندهست که فقط تیتر خبر رو ببینید اما بهش دسترسی نداشته باشین! اما خبر خوب اینه: همهی شبیهسازها، کدها و اسکریپتهای آموزش روی گیتهاب (Github) رایگان و پابلیک منتشر شده. یعنی هر کسی که بخواد دست به کار بشه و این ایده رو امتحان کنه یا حتی توسعه بده، راحت میتونه بره سراغشون!
خلاصه اگه به حفاظت محیط زیست، هوش مصنوعی یا روباتیک علاقه داری، این پروژه نشون میده چطور تکنولوژی و علم میتونن دست به دست هم بدن و کمک کنن تا یوزپلنگهای ایران زنده بمونن؛ اونم با همکاری تیمی چندتا پهپاد و کلی ایده خلاقانه هوش مصنوعی!
منبع: +