ببین، وقتی اسم هوش مصنوعی و یادگیری ماشین میاد، همیشه یه داستان پشت «انتخاب ویژگی» هست. انتخاب ویژگی یعنی از بین کلی ویژگی توی دیتای عظیم، اونایی رو پیدا کنیم که واقعاً به مدل کمک میکنن تصمیم بگیره و بقیش بیخودیه! حالا مشکل اینجاست که وقتی دادهها خیلی خیلی زیاد میشن (مثلاً تو حد دیتاستهای عظیم گوگل و اینا)، دیگه حتی کامپیوترای خیلی قوی هم نمیتونن به راحتی همهی ویژگیها رو بررسی کنن و انتخاب کنن. پس چی کار کنیم؟
یه روش خفن و تازه معرفی شده که اسمش هست “مثبت نگهداشتن منطقه با نمونهبرداری تصادفی”. یعنی Positive region preserved random sampling. خلاصهاش اینه: با یه سری ترفند جالب، میتونیم تو یک مدتزمان معقول و با کامپیوترهای خونگی، ویژگیهای مهم رو از بین کلی داده پیدا کنیم!
کانسپت اصلی این روش دو تا بخش داره. یکی «نمونهبرداری» (sampling) که قبلاً هم شاید شنیده باشی، یعنی به جای اینکه همه دادهها رو بررسی کنیم، یه بخشی رو به صورت تصادفی انتخاب میکنیم و روی اونا تحلیل انجام میدیم. دومی هم «تئوری مجموعههای زبر» یا Rough Set Theory که یه مفهوم ریاضی جذابه برای اینکه بفهمیم کدوم ویژگیها واقعاً به خوبی میتونن دادهها رو از هم تمیز بدن. مثلاً تو یه دیتاست مریضی، بفهمیم کدوم ویژگی واقعاً میتونه مریضارو از سالمها جدا کنه. مجموعههای زبر یعنی هر دادهای رو دقیقا نشناسیم، ولی بتونیم حد و حدودش رو مشخص کنیم.
حالا روش پیشنهادی این مقاله چی کار میکنه؟
اومدن گفتن: ما یه معیاری داریم به اسم «نسبت جفتهایی که میتونیم از هم تمیز بدیم به کل جفتهایی که باید تمایز بینشون باشه». این جمله یه کم سنگینه، ولی یعنی با ویژگیهایی که انتخاب کردیم، واقعاً چقدر قدرت داریم که دادههای متفاوت رو از هم تشخیص بدیم. هر چی این نسبت بالاتر باشه، یعنی انتخاب ویژگی عالی بوده.
بر اساس همین معیار، این روش اومده و یه الگوریتم جدید ساخته که باهاش از بین کلی ویژگی، اونایی رو پیدا میکنه که هنوزم همهی تفکیکپذیری دیتای اصلی رو نگه میدارن. یعنی قدرت تشخیصشون مثل حالت کامل باقی میمونه، اما با کلی ویژگی کمتر و سریعتر!
حالا چرا این روش باحالتر از بقیهست؟
دو تا دلیل اصلی داره:
۱. حتی روی کامپیوتر شخصی هم میشه یه زیرمجموعه ویژگی عالی پیدا کرد که تقریباً همون قدرت ویژگی کل دیتاست رو حفظ کرده باشه. یعنی نیاز به سوپرکامپیوتر نداری!
۲. قبل از اینکه اصلاً بری دنبال پیدا کردن کمینهی ویژگیها (redact)، میتونی حداقل حدود قدرت تمایز ویژگیهای انتخابی رو حساب کنی. یعنی از قبل میدونی انتخابت خیلی دور از حقیقت نیست.
توی این مقاله اومدن کار خودشون رو روی ۱۱ تا دیتاست با اندازههای مختلف تست کردن. نتیجه؟ تو زمان خیلی کم، تونستن تقریباً بهترین ویژگیها رو انتخاب کنن و قدرت جداسازی شون حتی بیشتر از اون حداقل برآورد شده بوده.
جالبتر اینکه رو ۴ تا دیتاست خیلی بزرگ هم امتحان کردن و باز تونستن تو زمان معقول با یه کامپیوتر معمولی، ویژگیهایی رو انتخاب کنن که قدرت تشخیص زیادی دارن.
خلاصهاش اینه: اگه با دیتای زیاد کار داری و کامپیوترت عین حلزون راه میره، این روش جدید هم سرعتتو زیاد میکنه، هم خیالت راحته که چیز مهمی رو از دست ندادی! اگر یه جورایی کنجکاوی بری بیشتر بخونی، اسم این روش رو یادداشت کن: Positive region preserved random sampling، همون نمونهبرداری برای نگه داشتن منطقه مثبت. حالا هر جا اسمشو دیدی، یاد این توضیحات بیفت! 😁
منبع: +