ترکیب هوش مصنوعی توضیح‌پذیر و مدل‌های عمیق برای پیش‌بینی آلودگی هوا در کیمبرلی، آفریقای جنوبی (به زبون خودمونی!)

خب بچه‌ها، قراره یه مدل باحال رو معرفی کنم که دانشمندای آفریقای جنوبی ساختنش تا بفهمن آلودگی هوا توی یه شهر به اسم کیمبرلی چه جوری کار می‌کنه و بتونن آینده‌ش رو پیش‌بینی کنن. خودتون می‌دونین که آلودگی هوا اصلاً شوخی نداره و این مدل‌ها کلی می‌تونن به سلامتی مردم کمک کنن. حالا بیاین با هم ببینیم چی ساختن!

یکی از چالشای بزرگ اینه که ویژگی‌های آلودگی هوا خیلی خطی و ساده نیست، پیچیده‌ست و هی تغییر می‌کنه. برای همین اومدن ترکیب جالبی از چندتا مدل استفاده کردن:

مدل LSTM (Long Short-Term Memory): خب این یه مدل هوش مصنوعی خیلی معروفه مخصوص کار با داده‌های زمانی. یعنی این مدل می‌تونه هم روندهای بلند مدت و هم روابط غیرخطی رو تو داده‌ها پیدا کنه. مثلاً می‌تونه بفهمه آلودگی امروز، چقدر به آلودگی روزای قبل مرتبطه.
مدل GAM (Generalized Additive Model): این یکی مدل آماریه که می‌تونه اثر هر عامل روی آلودگی رو جداگونه نشون بده. یعنی به ما کمک می‌کنه بفهمیم هر کدوم از فاکتورهای آب و هوایی یا چیزای دیگه، چقدر روی میزان آلودگی تاثیر دارن.
توضیح‌پذیری با xAI و LIME: حالا این یکی واقعاً جالبه! xAI یعنی explainable AI، یعنی هوش مصنوعی‌ای که می‌تونیم بفهمیم چی تو مغزش می‌گذره و چرا فلان پیش‌بینی رو کرده. روش LIME هم یکی از راه‌های توضیح دادن مدل‌های پیچیده‌ست و باعث میشه الگوریتم‌های هوش مصنوعی دیگه رازآلود نباشن! در واقع LIME توضیح می‌ده که مدل بر چه اساسی یه نتیجه رو داده.
کاوش علیت (Causal Inference): یعنی فقط دنبال همبستگی و رابطه‌ی ساده نبودن، بلکه سعی کردن بفهمن واقعاً یه عامل باعث یه تغییر خاص میشه یا نه. مثلاً آیا افزایش فلان گاز مستقیماً میزان آلودگی رو بالا می‌بره یا فقط اتفاقی با هم رخ میدن.

این گروه دیتای هواشناسی و آلودگی رو از یه ایستگاه به نام ‘هانتام’ (در منطقه Karoo) جمع کردن. اما از اونجایی که داده‌های کیمبرلی کافی نبوده، اومدن با روشی به اسم random sampling (نمونه‌گیری تصادفی) داده‌های مصنوعی برای این شهر ساختن تا مدل رو آموزش بدن.

واسه ارزیابی مدلشون از چندتا معیار مهم استفاده کردن:

MSE یا میانگین مربعات خطا: یعنی میانگین تفاوت چهارگوش بین پیش‌بینی مدل و واقعیت;
RMSE یا جذر میانگین مربعات خطا: شبیه قبلیه فقط ریشه‌ی دوم هم می‌گیرن تا واحدش مثل داده‌ی اصلی باشه.
MAE یا میانگین قدر مطلق خطا: یعنی میانگین اشتباه مدل بدون درنظر گرفتن مثبت و منفی بودن.

حالا از همه باحال‌تر اینه که مدل ترکیبی‌شون که اسمش رو گذاشتن LSTM-GAM_xAI تو پیش‌بینی چندین آلاینده (Pollutant) مختلف، هم با قدم‌های ۱۰روزه هم ۵روزه، کم‌ترین میزان خطا رو داشته! یعنی اگه دنبال مدل خوب برای پیش‌بینی آلودگی هستین، این یکی خیلی جواب میده.

جالب اینجاست که وقتی بحث علیت رو بررسی کردن، دیدن p-value ها (یه معیار آماری برای نشون دادن معنی‌دار بودن رابطه – یعنی آیا واقعاً اون عامل تأثیر داشته یا نه) بالا بودن و معنی خاصی نمی‌دادن (بیشتر از 0.88 بودن). اما بازم نتایج نشون دادن مدلشون در کل بهترین عملکرد رو از نظر MSE داره و تونسته آلودگی هوا رو تو بازه‌های زمانی مختلف با دقت خوبی پیش‌بینی کنه.

خلاصه ش، علم حسابی پیشرفت کرده و حالا با ترکیب مدل‌های یادگیری عمیق، توضیح‌پذیری و علیت، می‌تونیم پیش‌بینی‌های هوشمندانه و قابل فهمی درباره آلودگی هوا داشته باشیم. دیگه رازآلود و مشکی نبودن مثل قبل! هر وقت دیدین از مدل LSTM یا مدل‌های xAI حرف میزنن، بدونین دارن از پیشرفته‌ترین ابزارا واسه فهمیدن اتفاقات جهان استفاده می‌کنن.

منبع: +