خب بیا با هم یه موضوع جالب دنیای نیروگاهها رو زیر و رو کنیم: اینکه چطور میتونیم با کمک هوش مصنوعی (همون AI خودمون!) قطعی یا هدررفت بار رو پیشبینی کنیم و جلوی دردسرهای بزرگ رو بگیریم. میدونی که وقتی یه نیروگاه دچار هدررفت بار میشه، کل کارخونه ممکنه از کار بیفته و حسابی ضرر بدن. واسه اینکه این مشکل رو تا حد زیادی برطرف کنن، چند نفر از دانشمندا تصمیم گرفتن سراغ یادگیری ماشین (همون Machine Learning که یعنی به کامپیوتر یاد بدی خودش از دادهها یاد بگیره) برن.
حالا داستان اینه که این تیم اومدن شش مدل مختلف از ماشین لرنینگ رو آزمایش کردن تا ببینن ترکیب کدومشون بهترین نتیجه رو میده. بعد اومدن چیزی ساختن به اسم «ترکیب چند لایه مدلها» یا به انگلیسی “Multilayer Stack Ensemble”—ایدهاش اینه که بهجای یه مدل، چندتا رو بذاری پشت سر هم و ترکیبشون کنی تا پیشبینی قویتری داشته باشی. نکته باحالتر اینه که این مدلشون قابل توضیح هم هست – یعنی میتونی بفهمی چرا یه تصمیم خاص گرفته شده (چون میدونی، گاهی مدلهای AI مثل جعبه سیاه میمونن و هیچکس نمیدونه دارن چیکار میکنن!).
تحقیق رو با دادههای واقعی پنج ساله از شش تا نیروگاه مختلف انجام دادن. ولی یه مشکل بزرگ داشتن: توی این دادهها، بیشتر نمونهها مربوط به این بوده که بله، قطعی بار اتفاق افتاده، و تقریباً دادههای «بدون قطعی» خیلی کمتر بودن. به این حالت تو یادگیری ماشین میگن «داده نامتوازن» (Imbalanced Data). برای اینکه مدل به اکثریت دادهها (قطعی بارها) حساسیت پیدا نکنه و اقلیت (بدون قطعی) رو فراموش نکنه، چیزی به اسم “وزن کلاس” تعریف کردن—یعنی به مدل گفتن دادههای کمیاب رو جدیتر بگیر.
بعدش برای اینکه بهترین نتیجه رو بگیرن، سراغ یه ترفند دیگه رفتن: پارامترهای مدلها رو با یه روش به اسم “Randomized Search with Cross-Validation” پیدا کردن. خلاصه، مدلها رو هی با تنظیمات مختلف تست کردن تا برسن به اون ترکیبی که بهترین پیشبینی رو داره.
جالبیش اینجاست که ترکیب چند مدل با هم (همون Stack Ensemble) خیلی بهتر از هر مدل تکی جواب داد! ولی وقتی به جزئیات نگاه کردن، فهمیدن یکی از مدلها، یعنی «Gaussian Naïve Bayes» هی خطای منفی بالا میده – یعنی نمیتونه درست حدس بزنه کی قراره قطعی باشه و وقتی نباید، اعلام هشدار نمیده. پس این مدل رو از لایه دوم ترکیب حذف کردن و نتیجه، باز هم بهتر شد!
نکته طلایی این تحقیق این بود که وقتی دادههات نامتوازنن، نباید فقط به شاخصهایی مثل دقت (Accuracy) یا بازخوانی (Recall) و دقت پیشبینی (Precision) بسنده کنی. چندتا شاخص دیگه مهمترن، مثل «Balanced Accuracy» (میانگین درستی برای هر کلاس)، یا ROC (یه نمودار مخصوص سنجش عملکرد مدلها)، و “Precision-Recall Area Under Curve” که خلاصه بگیم یه جور معدلگیری از دقت و بازخوانی برای دادههایی که اکثراً یه طرفهان. اگه فقط به دقت بچسبی، مدل ممکنه فکر کنه چون اکثر دادهها مثبته، همیشه مثبت بگه و تو هم خوشحال باشی، اما واقعیت رو لو نداده!
در کل، نتیجه این بود که اگه یه مدل تو ترکیب خوب کار نمیکنه، حذفش کن، چون اینطوری میشه کل پیشبینی رو بهینه کرد و به جوابهایی دقیقتر رسید. خلاصه، هوش مصنوعی میتونه به واقعیترین شکل به کمک نیروگاهها بیاد و جلوی کلی ضرر ـقطعی بار رو بگیره، البته به شرطی که دادهها رو درست مدیریت کنیم و با مدلها بازی کنیم تا بهترین ترکیب رو دربیاریم!
منبع: +