بذارین یه داستان جالب براتون تعریف کنم! تا حالا به این فکر کردین که کبد ما فقط کارش تصفیه خون نیست؟ حالا یه تیم خوشذوق اومدن و از همین عملکرد کبد واسه ساخت یه مدل جدید یادگیری ماشین الهام گرفتن! اسمش رو گذاشتن “کلاسفایر کبد مصنوعی” یا همون Artificial Liver Classifier (ALC) که تازه خلاصهش میشه ALC.
اگه هنوز یادگیری ماشین براتون گنگه، بذار خلاصه بگم: یادگیری ماشین یعنی کامپیوترها بتونن با استفاده از اطلاعات گذشته خودشون چیزهای جدید رو تشخیص بدن یا پیشبینی کنن. حالا مدلهای یادگیری ماشین تحت نظارت (Supervised Machine Learning Classifier یعنی مدلهایی که با دادههایی که جوابشون رو قبلاً میدونیم آموزش داده میشن) همیشه یه سری مشکل دارن. مثلاً ممکنه بیشازحد روی دادهها یاد بگیرن (این همون overfitting هست؛ یعنی مدل انقدر خوب دادههای آموزش رو حفظ کرده که دیگه نمیتونه دادههای جدید رو درست تشخیص بده)، یا اینکه دقت لازم رو نداشته باشن و سرعتشون هم دلچسب نباشه.
اینجاست که کبد مصنوعی وارد میشه. این بچه زرنگ! اصلاً قرار بوده ساده و سریع باشه، بیخودی هم مدل رو پیچیده نمیکنه و برای مشکلات طبقهبندی چنددستهای (Multi-class Classification یعنی وقتی بیش از دو گروه مختلف داریم که باید متعلق بودنِ هر داده به یکیشون رو تشخیص بدیم) به کار میاد. فرمولش هم سادهست: یه سری عملیات ریاضی ابتدایی که همین باعث میشه هم کمخرجتر باشه هم سریعتر.
برای این که بهترین نتیجه رو بگیره، تو مرحله آموزش از یه روش بهبود یافته برای بهینه کردن پارامترها استفاده کردن به اسم الگوریتم FOX بهبود یافته (IFOX). این الگوریتم شبیه یه راهنماست که کمک میکنه همه چیز حسابی سر جای خودش قرار بگیره و یادگیری مدل بهتر بشه.
حالا بریم سراغ نتایج. تیم اومده این مدل جدیدشون رو روی پنج تا دیتاست معروف تست کرده. این دیتاستا رو با هم ببینیم:
- دیتاست گل زنبق (Iris Flower)
- دیتاست سرطان پستان ویسکانسین (Breast Cancer Wisconsin)
- دیتاست شراب (Wine)
- دیتاست تشخیص جنسیت صدا (Voice Gender)
- دیتاست ارقام دستنویس MNIST (MNIST)
نتیجه چی بوده؟ مدل کبد مصنوعی رو دست همه مدلهای معروف مثل Logistic Regression (یه مدل قدیمی و پایه برای طبقهبندی)، Multi-layer Perceptron (یا همون شبکه عصبی چندلایه)، SVM (Support Vector Machine یعنی یه مدل قدرتی برای دستهبندی)، و حتی XGBoost (یکی از معروفترین مدلهای یادگیری تقویتی) رو سفید کرده. مثلاً روی دیتاست گل زنبق، تونسته صددرصد دقت بگیره! روی دیتاست سرطان پستان هم ۹۹.۱۲ درصد دقت زده و حسابی XGBoost و دیگه مدلها رو پشت سر گذاشته.
از همه مهمتر اینه که فاصله عمومیسازی یا generalization gap کمتره؛ این یعنی مدل هم رو دادههای آموزش و هم روی دادههای جدید خوب عمل میکنه و فقط بلد نیست حفظی جواب بده! مقدار خطا یا همون loss هم نسبت به مدلهای سنتی پایینتر بوده. خلاصه یه جورایی سر و ته همه رو زده!
ته داستان اینه: یاد گرفتن از طبیعت (که بهش میگن Biologically-inspired models یا مدلهای الهامگرفته از زیست) میتونه کلی نوآوری باحال توی دنیای یادگیری ماشین بیاره. شاید دفعه بعد جدیدترین مدلها رو بسازیم که از مغز یا ریه یا حتی قلب الهام گرفتن! کلاً این روشها خیلی میتونن مسیر رو متفاوت کنن و مدلهای باحالتری برامون بیارن.
منبع: +