تا حالا اسم Mobile Edge Computing یا همون “موبایل اج کامپیوتینگ” رو شنیدی؟ یه تکنولوژی خیلی خفن برای نسل جدید شبکههای موبایله که باعث میشه پردازش دیتاها نزدیکتر به خود ما (یا همون کاربرها) انجام بشه و دیگه لازم نباشه همهچی رو بفرستن سرورهای دور دنیا. اینطوری هم مصرف انرژی کمتر میشه هم کارها سریعتر انجام میشه.
حالا موضوع اینه که موقع تصمیمگیری برای تقسیم کار بین دستگاههای مختلف (همون offloading)، معمولاً چند تا هدف داریم؛ مثلا اینکه هم انرژی کمتری مصرف بشه هم تاخیر یا همون delay کم شه. اما تو دنیای واقعی، نمیدونیم دقیقاً کدومیکی برای کاربر مهمتره یا اصلاً این اولویتها عوض میشن. برنامههایی که تا حالا نوشتن، بیشتر برای یه هدف خاص جواب میدن اما این مدلهای “تکهدفه” واسه دنیای واقعی کاربردی ندارن چون آدمها علایق متفاوتی دارن!
مقالهای که امروز میخوام برات توضیح بدم، اومده یه راهحل خیلی جذاب برای این قضیه پیشنهاد داده. کلیتش اینه: یه مدل یادگیری تقویتی چندهدفه (Multi-Objective Reinforcement Learning) استفاده کردند تا تصمیمگیری هوشمندانه بر اساس شرایط و سلیقههای مختلف بدن. یادگیری تقویتی یا همون Reinforcement Learning یه جور هوش مصنوعیه که به سیستم یاد میده مثل بچهها با تجربه کردن، خودش راهحل پیدا کنه.
خب، حالا چی کار کردن؟ اونا یه چارچوب جدید ساختن به اسم GMORL (Generalizable Multi-Objective Reinforcement Learning) که به زبان ساده یعنی: یه مدل یادگیری که بتونه خودش رو با شرایط مختلف، تعداد سرورها و حتی سرعتهای پردازشی مختلف تطبیق بده و بر اساس هر نوع اولویتی که کاربرم بزنه، بهترین تصمیم رو بگیره.
توی این سیستم، از یه الگوریتم به اسم Discrete Soft Actor-Critic یا به اختصار Discrete-SAC استفاده کردن. بخوام خودمونی برات بگم، این یه روش پیشرفته یادگیری تقویتیه که هم سرعت آموزش بالایی داره هم خیلی خوب با وضعیتهای متفاوت کنار میاد.
یه نکته دیگه اینکه اونا برای اینکه بتونن اطلاعات مربوط به چندتا سرور یا همون edge رو به مدل بدن، از یه روش جدید برای کدگذاری حالتها (state encoding) استفاده کردن به سبک هیستوگرام؛ یعنی خلاصه و دستهبندیشده اطلاعات رو به مدل میدن که تصمیمگیری راحتتر انجام شه.
حتی برای محاسبه جایزه یادگیری (همون reward function)، یه رویکرد هوشمندانه طراحی کردن که دقتش برای انرژی و تاخیر فوقالعاده بالاست. برای بهتر شدن نتیجهها هم یه معماری جدید شبکه عصبی استفاده کردن که باعث میشه مدلشون واقعاً قوی و قابل تعمیم باشه.
تو شبیهسازیهایی که انجام دادن، نشون دادن این روش GMORL تا ۱۲۱ درصد نسبت به روشهای قبلی “پیشرفت هایپروالیوم جبهه پارِتو” داره. اینو اگه برات سوال شد: Pareto front یعنی مجموعه بهترین انتخابها وقتی چندتا هدف متضاد داریم و hypervolume نشون میده کل مساحت این انتخابهای خوب چقدره (هرچی بیشتر، یعنی انتخابهای بهتری داریم).
خلاصه، تیم مقاله کدهای پروژه رو هم گذاشتن رو گیتهاب (داخل متن آدرسش هست) و کلاً دمت گرم که تا اینجا خوندی! اگه دنبال اینی که تصمیمگیری هوشمند تو شبکهها چجوری میتونه روی مصرف انرژی و سرعت تاثیر بذاره و مدلهایی میخوای که با شرایط و علاقه همه بشه وفق داد، این مقاله واقعاً دیدنیه!
منبع: +