روش باحال انتخاب ویژگی با نمونه‌برداری: وقتی داده‌ها انقدر زیادن که کامپیوتر کم میاره!

ببین، وقتی اسم هوش مصنوعی و یادگیری ماشین میاد، همیشه یه داستان پشت «انتخاب ویژگی» هست. انتخاب ویژگی یعنی از بین کلی ویژگی توی دیتای عظیم، اونایی رو پیدا کنیم که واقعاً به مدل کمک می‌کنن تصمیم بگیره و بقیش بیخودیه! حالا مشکل اینجاست که وقتی داده‌ها خیلی خیلی زیاد می‌شن (مثلاً تو حد دیتاست‌های عظیم گوگل و اینا)، دیگه حتی کامپیوترای خیلی قوی هم نمی‌تونن به راحتی همه‌ی ویژگی‌ها رو بررسی کنن و انتخاب کنن. پس چی کار کنیم؟

یه روش خفن و تازه معرفی شده که اسمش هست “مثبت نگه‌داشتن منطقه با نمونه‌برداری تصادفی”. یعنی Positive region preserved random sampling. خلاصه‌اش اینه: با یه سری ترفند جالب، می‌تونیم تو یک مدت‌زمان معقول و با کامپیوترهای خونگی، ویژگی‌های مهم رو از بین کلی داده پیدا کنیم!

کانسپت اصلی این روش دو تا بخش داره. یکی «نمونه‌برداری» (sampling) که قبلاً هم شاید شنیده باشی، یعنی به جای اینکه همه داده‌ها رو بررسی کنیم، یه بخشی رو به صورت تصادفی انتخاب می‌کنیم و روی اونا تحلیل انجام می‌دیم. دومی هم «تئوری مجموعه‌های زبر» یا Rough Set Theory که یه مفهوم ریاضی جذابه برای اینکه بفهمیم کدوم ویژگی‌ها واقعاً به خوبی می‌تونن داده‌ها رو از هم تمیز بدن. مثلاً تو یه دیتاست مریضی، بفهمیم کدوم ویژگی واقعاً می‌تونه مریضارو از سالم‌ها جدا کنه. مجموعه‌های زبر یعنی هر داده‌ای رو دقیقا نشناسیم، ولی بتونیم حد و حدودش رو مشخص کنیم.

حالا روش پیشنهادی این مقاله چی کار می‌کنه؟
اومدن گفتن: ما یه معیاری داریم به اسم «نسبت جفت‌هایی که می‌تونیم از هم تمیز بدیم به کل جفت‌هایی که باید تمایز بینشون باشه». این جمله یه کم سنگینه، ولی یعنی با ویژگی‌هایی که انتخاب کردیم، واقعاً چقدر قدرت داریم که داده‌های متفاوت رو از هم تشخیص بدیم. هر چی این نسبت بالاتر باشه، یعنی انتخاب ویژگی عالی بوده.

بر اساس همین معیار، این روش اومده و یه الگوریتم جدید ساخته که باهاش از بین کلی ویژگی، اونایی رو پیدا می‌کنه که هنوزم همه‌ی تفکیک‌پذیری دیتای اصلی رو نگه می‌دارن. یعنی قدرت تشخیص‌شون مثل حالت کامل باقی می‌مونه، اما با کلی ویژگی کمتر و سریع‌تر!

حالا چرا این روش باحال‌تر از بقیه‌ست؟
دو تا دلیل اصلی داره:
۱. حتی روی کامپیوتر شخصی هم می‌شه یه زیرمجموعه ویژگی عالی پیدا کرد که تقریباً همون قدرت ویژگی کل دیتاست رو حفظ کرده باشه. یعنی نیاز به سوپرکامپیوتر نداری!
۲. قبل از اینکه اصلاً بری دنبال پیدا کردن کمینه‌ی ویژگی‌ها (redact)، می‌تونی حداقل حدود قدرت تمایز ویژگی‌های انتخابی رو حساب کنی. یعنی از قبل می‌دونی انتخابت خیلی دور از حقیقت نیست.

توی این مقاله اومدن کار خودشون رو روی ۱۱ تا دیتاست با اندازه‌های مختلف تست کردن. نتیجه؟ تو زمان خیلی کم، تونستن تقریباً بهترین ویژگی‌ها رو انتخاب کنن و قدرت جداسازی شون حتی بیشتر از اون حداقل برآورد شده بوده.

جالب‌تر اینکه رو ۴ تا دیتاست خیلی بزرگ هم امتحان کردن و باز تونستن تو زمان معقول با یه کامپیوتر معمولی، ویژگی‌هایی رو انتخاب کنن که قدرت تشخیص زیادی دارن.

خلاصه‌اش اینه: اگه با دیتای زیاد کار داری و کامپیوترت عین حلزون راه می‌ره، این روش جدید هم سرعت‌تو زیاد می‌‌کنه، هم خیالت راحته که چیز مهمی رو از دست ندادی! اگر یه جورایی کنجکاوی بری بیشتر بخونی، اسم این روش رو یادداشت کن: Positive region preserved random sampling، همون نمونه‌برداری برای نگه داشتن منطقه مثبت. حالا هر جا اسمشو دیدی، یاد این توضیحات بیفت! 😁
منبع: +