خب رفقا، امروز میخوام براتون درباره یکی از اون مشکلات پر دردسر دنیای آمار و دادهها حرف بزنم: این که وقتی دادههامون ناقص میشه، چه جوری درست و حسابی ترمیمشون کنیم؟ مخصوصاً توی آزمونهای تشخیص شناختی (Cognitive Diagnosis Assessments) که قراره بفهمیم فرد چه مهارتی بلده یا بلد نیست.
یه تیم به اسم You و همکاراش تو سال ۲۰۲۳ یه روشی ساختن به اسم Random Forest Threshold Imputation یا همون RFTI. این اسم طولانی رو اگه بخوام راحت بگم، یعنی روشی که با کمک جنگل تصادفی (Random Forest) میاد دادههای جاافتاده رو حدس میزنه و جایگزین میکنه. جنگل تصادفی هم یه مدل کامپیوتریه که کلی درخت تصمیم (Decision Tree یعنی مدلهایی که میخوان پیشبینی کنن بر اساس دادههای قبلی) رو با هم ترکیب میکنه تا نتیجه بهتری بگیره.
تو روش RFTI گفتن که اگه مدلت به دادهای امتیاز بالای ۰.۵ داد، یه یا همون ۱ میذاریم، و اگه کمتر بود، صفر. ولی این که همیشه این خط رو رو ۰.۵ بذاریم یکم باعث میشه مطمئن نباشیم که واقعا درستترین حدسه یا نه.
اینجا بود که ماجرا جالبتر شد! یه روش جدید آوردن به اسم Random Forest Dynamic Threshold Imputation یا RFDTI که خیلی باحالتره، چون آستانه (Threshold یعنی اون خطی که تعیین میکنیم از اینجا به بعد عدد تغییر کنه) رو دیگه سفت و ثابت ۰.۵ نگه نمیداره. به جاش، بسته به هر شرایط و داده، این آستانه رو عوض میکنه – بهش میگن آستانه پویا، یعنی Dynamic Threshold.
حالا چیکار میکنه این روش RFDTI؟ اومدن یه سری شبیهسازی (Simulation یعنی تقلید کردن شرایط واقعی با کامپیوتر) راه انداختن و نشون دادن که وقتی با این روش دادههای ناقص رو تکمیل میکنی، مدلها معمولاً بهتر کار میکنن – حتی بهتر از چهار روش قدیمی که کلی ساله مردم دارن استفاده میکنن. اون چهار تا چی بودن؟
- شخصیسازی میانگین فردی (Person Mean Imputation)
- جایگذاری دومحوره (Two-way Imputation)
- الگوریتم توقع-بیشینه یا Expectation–Maximization که خلاصه بهش EM میگن (یه الگوریتم ریاضی برای برآورد کردن دادههای ناقص)
- جایگذاری چندگانه یا Multiple Imputation (که یعنی به جای یک بار، چندین بار داده ناقص رو با حدسهای متفاوت پر کنیم)
نتایج چی شد؟ غالباً روش جدید یعنی RFDTI بهتر جواب داد، مخصوصاً برای دادههایی که گمشدنشون به صورت تصادفی اتفاق افتاده یا بستگی به بقیه دادهها نداره (مثلاً MCAR یا MAR؛ MCAR یعنی Missing Completely At Random، یعنی دادهها بیدلیل گم شدهان؛ MAR یعنی Missing At Random، یعنی گم شدنشون یه ربطی به بقیه چیزا داره اما نه به خودشون). البته اگه دادهها خودسر گم شده باشن یا یه بخش از مخلوط حالتها رو تشکیل بدن (MNAR یا MIXED؛ MNAR یعنی Missing Not At Random و یعنی دادهها بیدلیل خودشون غیب شدن)، این روش یه کمی از روش اصلی RFTI ضعیفتر شد، بهخصوص وقتی کلی داده گم شده بود. ولی هنوز از اون روشهای قدیمی قدیمی خیلی بهتر بود!
تازه، یه مثال واقعی هم زدن و نشون دادن برای دادههای دارای حالت MNAR هم RFDTI همچنان عملکردش تقریباً مثل RFTI بود، ولی از بقیه روشها حسابی سرتر بود. برای اینکه همه بتونن راحت از این روش استفاده کنن، یه ابزار آماده توی زبان برنامهنویسی R هم منتشر کردن تا هر کسی بخواد مجبور نباشه کد نویسی عجیب غریب کنه.
خلاصه بچهها: اگه تا حالا واسه اینکه دادههاتون ناقص بودن حرص میخوردین، حالا یه راهحل خفن و هوشمندانه اینجاست که با دوتا آستانه پویا و جنگل تصادفی، میتونه با خیال راحت دادههاتون رو پر کنه. هم امتحانش باحاله، هم نتیجه میده! 😉
منبع: +