خب بچهها، قراره یه مدل باحال رو معرفی کنم که دانشمندای آفریقای جنوبی ساختنش تا بفهمن آلودگی هوا توی یه شهر به اسم کیمبرلی چه جوری کار میکنه و بتونن آیندهش رو پیشبینی کنن. خودتون میدونین که آلودگی هوا اصلاً شوخی نداره و این مدلها کلی میتونن به سلامتی مردم کمک کنن. حالا بیاین با هم ببینیم چی ساختن!
یکی از چالشای بزرگ اینه که ویژگیهای آلودگی هوا خیلی خطی و ساده نیست، پیچیدهست و هی تغییر میکنه. برای همین اومدن ترکیب جالبی از چندتا مدل استفاده کردن:
-
مدل LSTM (Long Short-Term Memory): خب این یه مدل هوش مصنوعی خیلی معروفه مخصوص کار با دادههای زمانی. یعنی این مدل میتونه هم روندهای بلند مدت و هم روابط غیرخطی رو تو دادهها پیدا کنه. مثلاً میتونه بفهمه آلودگی امروز، چقدر به آلودگی روزای قبل مرتبطه.
-
مدل GAM (Generalized Additive Model): این یکی مدل آماریه که میتونه اثر هر عامل روی آلودگی رو جداگونه نشون بده. یعنی به ما کمک میکنه بفهمیم هر کدوم از فاکتورهای آب و هوایی یا چیزای دیگه، چقدر روی میزان آلودگی تاثیر دارن.
-
توضیحپذیری با xAI و LIME: حالا این یکی واقعاً جالبه! xAI یعنی explainable AI، یعنی هوش مصنوعیای که میتونیم بفهمیم چی تو مغزش میگذره و چرا فلان پیشبینی رو کرده. روش LIME هم یکی از راههای توضیح دادن مدلهای پیچیدهست و باعث میشه الگوریتمهای هوش مصنوعی دیگه رازآلود نباشن! در واقع LIME توضیح میده که مدل بر چه اساسی یه نتیجه رو داده.
-
کاوش علیت (Causal Inference): یعنی فقط دنبال همبستگی و رابطهی ساده نبودن، بلکه سعی کردن بفهمن واقعاً یه عامل باعث یه تغییر خاص میشه یا نه. مثلاً آیا افزایش فلان گاز مستقیماً میزان آلودگی رو بالا میبره یا فقط اتفاقی با هم رخ میدن.
این گروه دیتای هواشناسی و آلودگی رو از یه ایستگاه به نام ‘هانتام’ (در منطقه Karoo) جمع کردن. اما از اونجایی که دادههای کیمبرلی کافی نبوده، اومدن با روشی به اسم random sampling (نمونهگیری تصادفی) دادههای مصنوعی برای این شهر ساختن تا مدل رو آموزش بدن.
واسه ارزیابی مدلشون از چندتا معیار مهم استفاده کردن:
- MSE یا میانگین مربعات خطا: یعنی میانگین تفاوت چهارگوش بین پیشبینی مدل و واقعیت;
- RMSE یا جذر میانگین مربعات خطا: شبیه قبلیه فقط ریشهی دوم هم میگیرن تا واحدش مثل دادهی اصلی باشه.
- MAE یا میانگین قدر مطلق خطا: یعنی میانگین اشتباه مدل بدون درنظر گرفتن مثبت و منفی بودن.
حالا از همه باحالتر اینه که مدل ترکیبیشون که اسمش رو گذاشتن LSTM-GAM_xAI تو پیشبینی چندین آلاینده (Pollutant) مختلف، هم با قدمهای ۱۰روزه هم ۵روزه، کمترین میزان خطا رو داشته! یعنی اگه دنبال مدل خوب برای پیشبینی آلودگی هستین، این یکی خیلی جواب میده.
جالب اینجاست که وقتی بحث علیت رو بررسی کردن، دیدن p-value ها (یه معیار آماری برای نشون دادن معنیدار بودن رابطه – یعنی آیا واقعاً اون عامل تأثیر داشته یا نه) بالا بودن و معنی خاصی نمیدادن (بیشتر از 0.88 بودن). اما بازم نتایج نشون دادن مدلشون در کل بهترین عملکرد رو از نظر MSE داره و تونسته آلودگی هوا رو تو بازههای زمانی مختلف با دقت خوبی پیشبینی کنه.
خلاصه ش، علم حسابی پیشرفت کرده و حالا با ترکیب مدلهای یادگیری عمیق، توضیحپذیری و علیت، میتونیم پیشبینیهای هوشمندانه و قابل فهمی درباره آلودگی هوا داشته باشیم. دیگه رازآلود و مشکی نبودن مثل قبل! هر وقت دیدین از مدل LSTM یا مدلهای xAI حرف میزنن، بدونین دارن از پیشرفتهترین ابزارا واسه فهمیدن اتفاقات جهان استفاده میکنن.
منبع: +