یه نگاه ساده و خودمونی به هوشمندسازی تصمیم‌گیری تو موبایل اج کامپیوتینگ با یادگیری تقویتی

Fall Back

تا حالا اسم Mobile Edge Computing یا همون “موبایل اج کامپیوتینگ” رو شنیدی؟ یه تکنولوژی خیلی خفن برای نسل جدید شبکه‌های موبایله که باعث میشه پردازش دیتاها نزدیک‌تر به خود ما (یا همون کاربرها) انجام بشه و دیگه لازم نباشه همه‌چی رو بفرستن سرورهای دور دنیا. اینطوری هم مصرف انرژی کم‌تر میشه هم کارها سریع‌تر انجام میشه.

حالا موضوع اینه که موقع تصمیم‌گیری برای تقسیم کار بین دستگاه‌های مختلف (همون offloading)، معمولاً چند تا هدف داریم؛ مثلا اینکه هم انرژی کم‌تری مصرف بشه هم تاخیر یا همون delay کم شه. اما تو دنیای واقعی، نمیدونیم دقیقاً کدوم‌یکی برای کاربر مهم‌تره یا اصلاً این اولویت‌ها عوض میشن. برنامه‌هایی که تا حالا نوشتن، بیشتر برای یه هدف خاص جواب میدن اما این مدل‌های “تک‌هدفه” واسه دنیای واقعی کاربردی ندارن چون آدم‌ها علایق متفاوتی دارن!

مقاله‌ای که امروز می‌خوام برات توضیح بدم، اومده یه راه‌حل خیلی جذاب برای این قضیه پیشنهاد داده. کلیتش اینه: یه مدل یادگیری تقویتی چندهدفه (Multi-Objective Reinforcement Learning) استفاده کردند تا تصمیم‌گیری هوشمندانه بر اساس شرایط و سلیقه‌های مختلف بدن. یادگیری تقویتی یا همون Reinforcement Learning یه جور هوش مصنوعیه که به سیستم یاد میده مثل بچه‌ها با تجربه کردن، خودش راه‌حل پیدا کنه.

خب، حالا چی کار کردن؟ اونا یه چارچوب جدید ساختن به اسم GMORL (Generalizable Multi-Objective Reinforcement Learning) که به زبان ساده یعنی: یه مدل یادگیری که بتونه خودش رو با شرایط مختلف، تعداد سرورها و حتی سرعت‌های پردازشی مختلف تطبیق بده و بر اساس هر نوع اولویتی که کاربرم بزنه، بهترین تصمیم رو بگیره.

توی این سیستم، از یه الگوریتم به اسم Discrete Soft Actor-Critic یا به اختصار Discrete-SAC استفاده کردن. بخوام خودمونی برات بگم، این یه روش پیشرفته یادگیری تقویتیه که هم سرعت آموزش بالایی داره هم خیلی خوب با وضعیت‌های متفاوت کنار میاد.

یه نکته دیگه اینکه اونا برای اینکه بتونن اطلاعات مربوط به چندتا سرور یا همون edge رو به مدل بدن، از یه روش جدید برای کدگذاری حالت‌ها (state encoding) استفاده کردن به سبک هیستوگرام؛ یعنی خلاصه و دسته‌بندی‌شده اطلاعات رو به مدل میدن که تصمیم‌گیری راحت‌تر انجام شه.

حتی برای محاسبه جایزه یادگیری (همون reward function)، یه رویکرد هوشمندانه طراحی کردن که دقتش برای انرژی و تاخیر فوق‌العاده بالاست. برای بهتر شدن نتیجه‌ها هم یه معماری جدید شبکه عصبی استفاده کردن که باعث میشه مدلشون واقعاً قوی و قابل تعمیم باشه.

تو شبیه‌سازی‌هایی که انجام دادن، نشون دادن این روش GMORL تا ۱۲۱ درصد نسبت به روش‌های قبلی “پیشرفت هایپروالیوم جبهه پارِتو” داره. اینو اگه برات سوال شد: Pareto front یعنی مجموعه بهترین انتخاب‌ها وقتی چندتا هدف متضاد داریم و hypervolume نشون میده کل مساحت این انتخاب‌های خوب چقدره (هرچی بیشتر، یعنی انتخاب‌های بهتری داریم).

خلاصه، تیم مقاله کدهای پروژه رو هم گذاشتن رو گیت‌هاب (داخل متن آدرسش هست) و کلاً دمت گرم که تا اینجا خوندی! اگه دنبال اینی که تصمیم‌گیری هوشمند تو شبکه‌ها چجوری میتونه روی مصرف انرژی و سرعت تاثیر بذاره و مدل‌هایی می‌خوای که با شرایط و علاقه همه بشه وفق داد، این مقاله واقعاً دیدنیه!

منبع: +