کلاسفایر کبد مصنوعی: یه روش خفن و متفاوت برای مدل‌های یادگیری ماشین

بذارین یه داستان جالب براتون تعریف کنم! تا حالا به این فکر کردین که کبد ما فقط کارش تصفیه خون نیست؟ حالا یه تیم خوش‌ذوق اومدن و از همین عملکرد کبد واسه ساخت یه مدل جدید یادگیری ماشین الهام گرفتن! اسمش رو گذاشتن “کلاسفایر کبد مصنوعی” یا همون Artificial Liver Classifier (ALC) که تازه خلاصه‌ش میشه ALC.

اگه هنوز یادگیری ماشین براتون گنگه، بذار خلاصه بگم: یادگیری ماشین یعنی کامپیوترها بتونن با استفاده از اطلاعات گذشته خودشون چیزهای جدید رو تشخیص بدن یا پیش‌بینی کنن. حالا مدل‌های یادگیری ماشین تحت نظارت (Supervised Machine Learning Classifier یعنی مدل‌هایی که با داده‌هایی که جوابشون رو قبلاً می‌دونیم آموزش داده می‌شن) همیشه یه سری مشکل دارن. مثلاً ممکنه بیش‌ازحد روی داده‌ها یاد بگیرن (این همون overfitting هست؛ یعنی مدل انقدر خوب داده‌های آموزش رو حفظ کرده که دیگه نمی‌تونه داده‌های جدید رو درست تشخیص بده)، یا اینکه دقت لازم رو نداشته باشن و سرعتشون هم دل‌چسب نباشه.

اینجاست که کبد مصنوعی وارد میشه. این بچه زرنگ! اصلاً قرار بوده ساده و سریع باشه، بیخودی هم مدل رو پیچیده نمی‌کنه و برای مشکلات طبقه‌بندی چنددسته‌ای (Multi-class Classification یعنی وقتی بیش از دو گروه مختلف داریم که باید متعلق بودنِ هر داده به یکیشون رو تشخیص بدیم) به کار میاد. فرمولش هم ساده‌ست: یه سری عملیات ریاضی ابتدایی که همین باعث میشه هم کم‌خرج‌تر باشه هم سریع‌تر.

برای این که بهترین نتیجه رو بگیره، تو مرحله آموزش از یه روش بهبود یافته برای بهینه کردن پارامترها استفاده کردن به اسم الگوریتم FOX بهبود یافته (IFOX). این الگوریتم شبیه یه راهنماست که کمک می‌کنه همه چیز حسابی سر جای خودش قرار بگیره و یادگیری مدل بهتر بشه.

حالا بریم سراغ نتایج. تیم اومده این مدل جدیدشون رو روی پنج تا دیتاست معروف تست کرده. این دیتاستا رو با هم ببینیم:

  • دیتاست گل زنبق (Iris Flower)
  • دیتاست سرطان پستان ویسکانسین (Breast Cancer Wisconsin)
  • دیتاست شراب (Wine)
  • دیتاست تشخیص جنسیت صدا (Voice Gender)
  • دیتاست ارقام دستنویس MNIST (MNIST)

نتیجه چی بوده؟ مدل کبد مصنوعی رو دست همه مدل‌های معروف مثل Logistic Regression (یه مدل قدیمی و پایه برای طبقه‌بندی)، Multi-layer Perceptron (یا همون شبکه عصبی چندلایه)، SVM (Support Vector Machine یعنی یه مدل قدرتی برای دسته‌بندی)، و حتی XGBoost (یکی از معروف‌ترین مدل‌های یادگیری تقویتی) رو سفید کرده. مثلاً روی دیتاست گل زنبق، تونسته صددرصد دقت بگیره! روی دیتاست سرطان پستان هم ۹۹.۱۲ درصد دقت زده و حسابی XGBoost و دیگه مدل‌ها رو پشت سر گذاشته.

از همه مهم‌تر اینه که فاصله عمومی‌سازی یا generalization gap کمتره؛ این یعنی مدل هم رو داده‌های آموزش و هم روی داده‌های جدید خوب عمل می‌کنه و فقط بلد نیست حفظی جواب بده! مقدار خطا یا همون loss هم نسبت به مدل‌های سنتی پایین‌تر بوده. خلاصه یه جورایی سر و ته همه رو زده!

ته داستان اینه: یاد گرفتن از طبیعت (که بهش میگن Biologically-inspired models یا مدل‌های الهام‌گرفته از زیست) می‌تونه کلی نوآوری باحال توی دنیای یادگیری ماشین بیاره. شاید دفعه بعد جدیدترین مدل‌ها رو بسازیم که از مغز یا ریه یا حتی قلب الهام گرفتن! کلاً این روش‌ها خیلی می‌تونن مسیر رو متفاوت کنن و مدل‌های باحال‌تری برامون بیارن.

منبع: +