یه مدل هوشمند خفن برای درست کردن داده‌های ناقص توی پایپ‌لاین‌ها!

تاحالا شده وسط مانیتور کردن یه خط لوله (همون pipeline که مثلا گاز یا نفت توش جابجا می‌کنن) داده‌هات ناقص بشه و معلوم نباشه الان اون لوله دقیقا چه وضعیتی داره؟ خب این یه مشکل همیشگیه و عملا کار آدم رو لنگ می‌ذاره!

یه تیم مهندسی اومده یه روش خیلی خفن و هوشمند پیشنهاد داده که بتونه این داده‌های ناقص رو تا جای ممکن بازسازی کنه و مشکل رو حل کنه. اسم مدل پیشنهادی‌شون هست PDO-BiGRU-GAN که خودش ترکیبی از سه تا الگوریتم جدیده. حالا یه کوچولو توضیح میدم این اسم عجیب و غریب یعنی چی:

  • PDO: این خلاصه‌ی Prairie Dog Optimization هست، یعنی الگوریتمی که خودش رو بر اساس رفتار موش‌های صحرایی تنظیم می‌کنه تا بهترین مقدارهای تنظیمات (هایپرپارامترها) رو پیدا کنه. هایپرپارامتر میان اون تنظیمات ریز مهندسی شده توی مدل‌های یادگیری هستن که تاثیر زیادی توی عملکرد مدل دارن.
  • BiGRU: یعنی Bidirectional Gated Recurrent Unit؛ یه جور شبکه عصبی که خوب بلده رد زمان رو بگیره و از قبل و بعد داده‌ها رو متوجه بشه. توی واقعیت، چون داده‌های لوله توی طول زمان تغییر می‌کنن، این خیلی کمک می‌کنه.
  • GAN: اینم همون Generative Adversarial Network معروفه؛ یعنی یه مدل هوش مصنوعی که خودش دو تا شبکه داره که با هم کل‌کل می‌کنن تا یه مدل خیلی قوی واسه تولید یا کامل کردن داده‌ها در بیارن. یعنی GAN خودش داده جدید می‌سازه!

حالا این مدل سه‌تایی رو چطور تست کردن؟ یه دیتابیس بزرگ از داده‌های واقعی یه پروژه اوپن سورس روی پایپ‌لاین جمع کردن. مدل رو مدام با این داده‌ها تست کردن و برای اینکه بفهمن هر کدوم از اون سه بخش مدل چقدر تاثیر دارن، اومدن هر دفعه یه قسمتش رو حذف کردن و دیدن عملکرد چطور عوض میشه (این کار رو میگن ablation study یعنی بررسی نقش هر بخش به صورت جداگونه). بعدش هم کلی تنظیمات مدل رو عوض کردن تا ببینن چقدر حساسه (که این رو می‌گن hyperparameter sensitivity analysis).

یه بخش باحال این بود که بررسی کردن اگه تعداد حسگرها (sensor) که داده‌شون جامونده زیاد باشه یا نسبت داده‌های ناقص بالا بره، مدل چقدر هنوز خوب کار می‌کنه. یعنی یه سناریوی واقعی ساختن که فرض کن چند تا حسگر خراب شدن یا داده‌ ندادن.

نکته دوست‌داشتنی اینجاست که مدل پیشنهادی با ۸ تا مدل یادگیری عمیق دیگه که الان حسابی رو بورس هستن هم مقایسه شده. نتیجه؟ مدل PDO-BiGRU-GAN تقریباً توی همه سناریوها بهترین دقت رو داشت. یه معیار رایج برای قضاوت دقت مدل اسمش هست R2 (یه جور شاخص که هرچی نزدیک‌تر به ۱ باشه بهتره). توی همه نمونه‌ها R2 مدل بالای ۰.۹۳ بود، که واقعاً عالیه!

علاوه بر این، معیارهای دیگه‌ای مثل MSE (میانگین خطای مربعی)، RMSE (ریشه میانگین مربعی خطا)، MAPE (درصد خطای میانگین مطلق)، و MAE (میانگین خطای مطلق) هم بررسی کردن و توی همه‌شون مدل جدید پایین‌ترین مقدار خطا رو گرفت. البته خب پردازش این مدل نسبت به مدل‌های خیلی ساده، یه خورده بیشتر طول می‌کشه؛ اما نسبت به مدل‌های پیچیده‌تر هنوز سریع‌تر جواب می‌ده.

در کل، این مدل یه راه‌حل حسابی مطمئن و مقیاس‌پذیر واسه بازسازی داده‌های ناقص مانیتورینگ پایپ‌لاین‌هاست که می‌تونه باعث بشه سیستم‌های نظارتی هوشمندتر و ایمن‌تر بشن. این خودش می‌تونه به پیشرفت مدیریت سلامت زیرساخت‌ها و تکنولوژی‌های مانیتورینگ هوشمند حسابی کمک کنه!

خلاصه اگه روزی گیر افتادی و از یه خط لوله داده ناقص داشتی، شاید این مدل سه‌گانه‌ی عجیب‌ و هوشمند به کارت بیاد! 😉

منبع: +