هوش مصنوعی و پیش‌بینی ریسک سرطان ریه: وقتی مدل‌ها با هم قوی‌تر میشن!

خب رفقا، بذارید یه موضوع خیلی مهم رو با هم بررسی کنیم: سرطان ریه! می‌دونید سرطان ریه هنوزم تو کل دنیا، بزرگ‌ترین دلیل مرگ و میر مرتبط با سرطان‌ها محسوب میشه. یعنی کلی آدم به خاطر دیر تشخیص داده شدن یا مشکلات دیگه، جونشونو از دست میدن. بنابراین هر روشی که بتونه زودتر و دقیق‌تر به تشخیص این بیماری کمک کنه، واقعاً ارزشمنده.

تو این مقاله درباره استفاده از “Machine Learning” صحبت شده که همون یادگیری ماشین خودمونه. یعنی الگوریتم‌ها و مدل‌هایی که می‌تونن با تحلیل داده‌ها، آینده رو پیش‌بینی کنن یا تصمیم‌گیری کنن. حالا این یادگیری ماشین توی پیش‌بینی ریسک سرطان ریه حسابی سروصدا کرده و می‌تونه کمک کنه که بیماران زودتر شناسایی بشن.

ولی یه مشکل بزرگ وجود داره؛ دیتاستای کلینیکی (یعنی همون مجموعه داده‌هایی که از بیماران جمع‌آوری کردن) معمولاً از لحاظ تعداد نمونه‌ها متعادل نیست. مثلاً شاید بیشتر داده‌ها مربوط به کسانی باشه که سرطان داشتن و تعداد زیادی داده سالم وجود نداره. این رو بهش میگن “Class Imbalance” یا عدم توازن کلاس‌ها. این اتفاق باعث میشه مدل وقتی قراره پیش‌بینی کنه، یه حالت جانب‌دارانه (bias) پیدا کنه و دقتش بیاد پایین.

برای حل این داستان، محقق‌های این مقاله اومدن سراغ تکنیک‌های مختلف “Data Augmentation”. ساده‌ش یعنی افزایش مصنوعی تعداد داده‌ها با روش‌های مختلف، که باعث بشه مدل‌ها بتونن بهتر و منصفانه‌تر یاد بگیرن. مثلاً یه تکنیکی به اسم “K-Means SMOTE” هست، که میاد با استفاده از خوشه‌بندی (کلاسترینگ) داده‌ها، نمونه‌های جدیدی اختراع می‌کنه، جوری که انگار کلی داده جدید داری!

تصورش رو بکن، وقتی این روش‌های افزایش داده رو با مدل‌های مختلف ترکیب کردن (که بهشون می‌گن “classification models”، یعنی مدل‌های دسته‌بندی)، دیدن دقت پیش‌بینی حسابی میره بالا. در واقع، بهترین نتیجه زمانی به دست اومده که همین K-Means SMOTE رو با یه مدل به اسم “Multi-Layer Perceptron” یا همون شبکه عصبی چندلایه استفاده کردن. دقت این ترکیب شده حدود ۹۳.۵۵٪ که فوق‌العادست! ضمناً امتیاز AUC-ROC هم گرفته ۹۶.۷۶. (AUC-ROC یه معیار دیگه‌س که سنجش دقت مدل تو دسته‌بندی رو نشون میده.)

ولی قسمت جذاب‌ترش چیه؟ اینکه فقط دقت بالا کافی نیست، باید معلوم باشه مدل چرا این پیش‌بینی رو انجام داده. برای همین از یه تکنولوژی به اسم “LIME” کمک گرفتن. LIME یه ابزار برای توضیح دادن تصمیمات مدل‌های هوش مصنوعیه؛ یعنی نشون میده مدل دقیقاً به خاطر کدوم ویژگی‌ها این پیش‌بینی رو کرده. این برای پزشکا و تصمیم‌گیری بالینی خیلی مهمه، چون نمی‌تونن فقط به یه مدل که دلیل نداره اعتماد کنن.

یه نکته مهم رو هم فراموش نکنیم: دیتاست این پژوهش کوچیک و تقریباً ۸۷.۴۵٪ش مبتلا به سرطانه، پس این کار بیشتر یه مقایسه علمی برای روش‌ها بوده تا اینکه واقعاً ابزار نهایی پزشکی باشه. هنوز باید روی دیتاست بزرگ‌تر و متنوع‌تر امتحان بشه. خلاصه این کار نشون میده برای دیتای نامتوازن، بهتره قبل از مدل‌سازی سراغ augmentation بریم و بعدشم دنبال مدل‌هایی بگردیم که باهاش بیشترین دقت رو می‌گیریم.

در مجموع، این تحقیق یه قدم مهم تو زمینه ترکیب داده‌سازی، هوش مصنوعی و توضیح‌پذیری الگوریتم‌هاست. اگه آینده‌ای رو تصویر می‌کنید که هوش مصنوعی بتونه تشخیص‌های پزشکی رو سریع‌تر و دقیق‌تر کنه، این تحقیقات واقعاً مهم و الهام‌بخشن!

منبع: +