بذارین یه داستان تعریف کنم! فرض کنین یه عالمه داده دارین که همینطوری دارن لحظهبهلحظه به سیستم شما اضافه میشن؛ مثل اطلاعات سنسورها روی یک ماشین خودران یا دادههایی که از شبکههای اجتماعی پای تلفن شما میان. این نوع دادهها رو میگن دادههای پخش جریانی یا همون streaming data. حالا اگه تعداد ویژگیها یا ابعاد این دادهها زیاد باشه (یعنی high-dimensional)، خب کار کردن باهاشون واقعاً سخت میشه. اینجاست که یه مفهوم به اسم “انتخاب ویژگی آنلاین” یا به انگلیسی OSFS (Online Streaming Feature Selection) به درد میخوره. یعنی چی؟ یعنی همین طور که داده جدید میرسه، سیستم خودش متوجه میشه کدوم ویژگیها رو نگه داره و کدوم رو بیخیال شه.
ولی وای به روزی که بخشی از دادهها گم بشه یا اطلاعات ناقص بهدستتون برسه! مثلاً سنسورتون خراب شه، بخشی از دیتا پر نشه، یا سیستم قطع و وصل بشه. اینجا دیگه مدلهای کلاسیک OSFS چندان جواب نمیدن. یه روش پیشرفتهتر هست به اسم OS2FS (Online Sparse Streaming Feature Selection) که براساس یه چیزی به اسم تحلیل عوامل پنهان (Latent Factor Analysis) سعی میکنه جای دادههای ناقص رو پر کنه.
اما باز هم یه مشکل بزرگ وجود داره: در دنیای واقعی، همیشه رابطهی بین “ویژگیها” (مثلاً سن یا قد یا دمای محیط) و “برچسب” (مثلاً اسم دستهبندی مثل سالم/خراب) اصلاً قطعی نیست. گاهی این رابطه گنگ و نامطمئنه و مدلهای قبلی خیلی سفت و سخت رفتار میکنن و نمیتونن این عدم اطمینان رو خوب مدیریت کنن. نتیجه؟ عملکرد سیستم پایین میاد!
اینجا بود که یه تیم به فکر یه ایده خلاقانه افتاد و گفت: خب، چرا از “Particle Swarm Optimization” استفاده نکنیم؟! Particle Swarm Optimization یا به اختصار PSO یه روشهوشمصنوعی هست که الهام گرفته از رفتار گروهی پرندهها یا ماهیهاست. تو این روش، هر نقطه (یا ذره) به بقیه نگاه میکنه تا بتونه بهترین راهحل رو پیدا کنه. مدلهایی که از PSO استفاده میکنن معمولاً خیلی قوی و باهوشن چون خودشون رو با شرایط مختلف هماهنگ میکنن.
خب حالا تیم گفته بیاین یه چارچوب جدید بسازیم به اسم POS2FS (یعنی PSO-based Online Sparse Streaming Feature Selection). این مدل میاد:
- از قدرت PSO برای یادگیری بهتر و کاهش عدم اطمینان در رابطه بین ویژگیها و برچسبها استفاده میکنه.
- برای مدیریت این که کدوم ویژگیها واقعاً ارزش دارن (و کدوم گنگ و دودلاند) از “Three-way decision theory” کمک میگیره. این نظریه یعنی تصمیمگیری سهطرفه که یه مدل تئوری خاصه برای اینکه مجبور نباشیم همه چیز رو خیلی قطعی سیاه یا سفید ببینیم؛ میذاریم بعضی چیزها خاکستری بمونن!
خلاصه اگه بخوام جمعبندی کنم، محققها این چارچوب رو روی شش مجموعه داده واقعی امتحان کردن و دیدن که POS2FS نسبت به مدلهای قبلی مثل OSFS و OS2FS هم عملکرد بهتری داره و هم تو انتخاب ویژگیها دقیقتر و مقاومتر عمل میکنه. در واقع، حالا وقتی دادههاتون ناقص یا گنگ باشه، این مدل خیلی هوشمندانهتر تصمیم میگیره و به نتیجه دقیقتری میرسین!
پس دفعه بعد که صحبت از دادههای عجیب و ناقص شد، یادتون باشه یه مدل خلاقانه با اسم عجیب POS2FS هست که با الهام از پرندهها و سهراهیها، مشکل رو حل میکنه!
منبع: +