بهینه‌سازی با ذرات! انتخاب ویژگی‌ها توی داده‌های عجیب و غریب و ناقص، ولی با خلاقیت

بذارین یه داستان تعریف کنم! فرض کنین یه عالمه داده دارین که همینطوری دارن لحظه‌به‌لحظه به سیستم شما اضافه میشن؛ مثل اطلاعات سنسورها روی یک ماشین خودران یا داده‌هایی که از شبکه‌های اجتماعی پای تلفن شما میان. این نوع داده‌ها رو میگن داده‌های پخش جریانی یا همون streaming data. حالا اگه تعداد ویژگی‌ها یا ابعاد این داده‌ها زیاد باشه (یعنی high-dimensional)، خب کار کردن باهاشون واقعاً سخت میشه. اینجاست که یه مفهوم به اسم “انتخاب ویژگی آنلاین” یا به انگلیسی OSFS (Online Streaming Feature Selection) به درد می‌خوره. یعنی چی؟ یعنی همین طور که داده جدید می‌رسه، سیستم خودش متوجه میشه کدوم ویژگی‌ها رو نگه داره و کدوم رو بی‌خیال شه.

ولی وای به روزی که بخشی از داده‌ها گم بشه یا اطلاعات ناقص به‌دستتون برسه! مثلاً سنسورتون خراب شه، بخشی از دیتا پر نشه، یا سیستم قطع و وصل بشه. اینجا دیگه مدل‌های کلاسیک OSFS چندان جواب نمیدن. یه روش پیشرفته‌تر هست به اسم OS2FS (Online Sparse Streaming Feature Selection) که براساس یه چیزی به اسم تحلیل عوامل پنهان (Latent Factor Analysis) سعی می‌کنه جای داده‌های ناقص رو پر کنه.

اما باز هم یه مشکل بزرگ وجود داره: در دنیای واقعی، همیشه رابطه‌ی بین “ویژگی‌ها” (مثلاً سن یا قد یا دمای محیط) و “برچسب” (مثلاً اسم دسته‌بندی مثل سالم/خراب) اصلاً قطعی نیست. گاهی این رابطه گنگ و نامطمئنه و مدل‌های قبلی خیلی سفت و سخت رفتار می‌کنن و نمی‌تونن این عدم اطمینان رو خوب مدیریت کنن. نتیجه؟ عملکرد سیستم پایین میاد!

اینجا بود که یه تیم به فکر یه ایده خلاقانه افتاد و گفت: خب، چرا از “Particle Swarm Optimization” استفاده نکنیم؟! Particle Swarm Optimization یا به اختصار PSO یه روشهوش‌مصنوعی هست که الهام گرفته از رفتار گروهی پرنده‌ها یا ماهی‌هاست. تو این روش، هر نقطه (یا ذره) به بقیه نگاه می‌کنه تا بتونه بهترین راه‌حل رو پیدا کنه. مدل‌هایی که از PSO استفاده می‌کنن معمولاً خیلی قوی و باهوشن چون خودشون رو با شرایط مختلف هماهنگ می‌کنن.

خب حالا تیم گفته بیاین یه چارچوب جدید بسازیم به اسم POS2FS (یعنی PSO-based Online Sparse Streaming Feature Selection). این مدل میاد:

از قدرت PSO برای یادگیری بهتر و کاهش عدم اطمینان در رابطه بین ویژگی‌ها و برچسب‌ها استفاده می‌کنه.
برای مدیریت این که کدوم ویژگی‌ها واقعاً ارزش دارن (و کدوم گنگ و دودل‌اند) از “Three-way decision theory” کمک می‌گیره. این نظریه یعنی تصمیم‌گیری سه‌طرفه که یه مدل تئوری خاصه برای اینکه مجبور نباشیم همه چیز رو خیلی قطعی سیاه یا سفید ببینیم؛ می‌ذاریم بعضی چیزها خاکستری بمونن!

خلاصه اگه بخوام جمع‌بندی کنم، محقق‌ها این چارچوب رو روی شش مجموعه داده واقعی امتحان کردن و دیدن که POS2FS نسبت به مدل‌های قبلی مثل OSFS و OS2FS هم عملکرد بهتری داره و هم تو انتخاب ویژگی‌ها دقیق‌تر و مقاوم‌تر عمل می‌کنه. در واقع، حالا وقتی داده‌هاتون ناقص یا گنگ باشه، این مدل خیلی هوشمندانه‌تر تصمیم می‌گیره و به نتیجه دقیق‌تری می‌رسین!

پس دفعه بعد که صحبت از داده‌های عجیب و ناقص شد، یادتون باشه یه مدل خلاقانه با اسم عجیب POS2FS هست که با الهام از پرنده‌ها و سه‌راهی‌ها، مشکل رو حل می‌کنه!

منبع: +