خب بچهها، بریم ببینیم توی این مقاله جدید چه خبر بوده و اصلاً جریان این «سیستم هماهنگی سیگنالهای ترافیکی با مدل هیبرید» چیه!
ماجرا اینجوریه که توی شهرای شلوغ ترافیک همیشه یه داستانیه: از یه طرف باید چراغ قرمزها جوری تنظیم بشن که ماشینها بتونن راحت و پشت هم حرکت کنن (یعنی مثل راهرو یه طرفه که همه سبز باشه و باهم برن جلو)، از یه طرف دیگه باید هوای هر چهارراه رو هم داشته باشیم و ببینیم که هر جا شلوغ شد، سریع واکنش نشون بدیم. خب مهندسای این مقاله یه ایدهی توپ دادن که هر دو مشکل رو با هم حل کنه!
اونا اومدن گفتن بیاید یه سیستم چندلایه درست کنیم: توی این سیستم، سه تا بخش اصلی داریم:
-
هماهنگکننده سطح بالا یا همون High-Level Coordinator (HLC): این بخش، حالت رئیس کل ماجراست! با توجه به ترافیک فعلی و پیشبینیهایی که انجام میده، تصمیم میگیره کدوم استراتژی رو برای هماهنگی چراغها انتخاب کنه. یعنی هم وضعیت الان رو میبینه، هم حواسش به آینده هست.
-
هماهنگکننده «راهرویی» یا Corridor Coordinator: این یکی نقش واسطه رو داره. اگه استراتژیمون مثلاً «هماهنگی بالاترین جریان» (Max-Flow Coordination که توی مقاله MFC نوشته شده و یعنی جایی که بیشترین ترافیک رد میشه رو الویت بدن) یا «همزمانی سبزها» (Green-Wave Coordination، خلاصه شده GWC، یعنی کلی چراغ پشت سر هم سبز بمونن تا یه صف ماشین پشت هم حرکت کنه) باشه، این بخش میاد واسش فازهای چراغها رو تعیین میکنه.
-
Agent یا عامل هیبریدی (Hybrid Signal Agent – HSA): این بچهها دیگه رباتهای هوشمندن که با یادگیری تقویتی، یعنی یه جور هوش مصنوعی که از تجربه و آزمون خطا یاد میگیره، تصمیم میگیرن چراغ هر چهارراه کی قرمز و کی سبز بشه. تازه با یه روش خاص به اسم «action masking» هم کار میکنن که یعنی کارهای غیرممکن رو فیلتر میکنن و فقط انتخابهای منطقی رو میذارن روشون.
حالا توی مقاله از «یادگیری تقویتی سلسلهمراتبی» (Hierarchical Reinforcement Learning) استفاده شده که یه مدل هوش مصنوعیه که مثل نردبان، تصمیمها رو از بالا به پایین تقسیم و مدیریت میکنه. واسه آموزش الگوریتمها هم از یه تکنیک به اسم Proximal Policy Optimization یا همون PPO استفاده کردن که اگه بخوای ساده بگم یه روش پیشرفته واسه آموزش عاملهای هوشمنده که هم پایداره و هم سریع یاد میگیرن.
اینا اومدن سه مدل عامل هوشمند در نظر گرفتن: یکی MFC-aware که مخصوص مدل بیشترین جریان کار میکنه، یکی GWC-aware برای اون سبزخونههای پشت سر هم، و یکی pure agent control (PAC) که صرفاً مثل یه هوش مصنوعی بدون وابستگی به استراتژی خاص خودشو اداره میکنه.
در سطح بالا، HLC یاد میگیره که بسته به شرایط ترافیک بین این استراتژیها سوییچ کنه. اینجا یه قضیه جالب هم هست و اونم «multi-objective reward balancing» ــ یعنی موقع آموزش یه امتیاز چندجانبه تعریف کردن تا هم راهروی خاص مدیریت بشه، هم کل شبکه شهری، نه فقط یه نقطه.
همه اینا رو روی یه پلتفرم شبیهسازی واقعاً قدرتمند به اسم SUMO-RLlib اجرا کردن (SUMO یه شبیهساز ترافیک معروفه و RLlib هم یه کتابخونه یادگیری تقویتی). نتیجه چه شد؟
- وقتی ترافیک خیلی سنگین بوده، مدل ترکیبی MFC قشنگ حجم عبور رو به حداکثر رسونده و باعث شده تهترافیک کم بشه.
- مدل ترکیبی GWC همیشه باعث کم شدن توقف ماشینها سر چهارراههای اصلی شده و حرکت روانی رو توی شهر ایجاد کرده، اما بعضی وقتا میتونه باعث بشه کل شبکه شهری اونقدرا بهرهور نباشه (یعنی یهذره کندی بیاره واسه جاهای دیگه).
- عامل PAC تو درخواستهای متوسط خیلی عالی کار کرده و زمان سفر ماشینها تو کل شهر رو کم کرده، ولی تو ترافیک سنگین کاراییش کم میشه.
خلاصه این سیستم سلسلهمراتبی باعث شده انعطاف و واکنش سیستم به شرایط مختلف بالا بره، یعنی بتونه با هر میزان شلوغی تصمیم درست رو خودش بگیر.
پس با همچین طراحی هوشمندی توقع داریم شهرای آینده راحتتر نفس بکشن و کمتر تو ترافیک بمونیم؛ این وسط هم هوش مصنوعی داره پلهپله یاد میگیره که بهترین تصمیمها رو واسه چراغقرمزهای شهر بگیره!
منبع: +