خب رفقا، بذارید یه موضوع خیلی مهم رو با هم بررسی کنیم: سرطان ریه! میدونید سرطان ریه هنوزم تو کل دنیا، بزرگترین دلیل مرگ و میر مرتبط با سرطانها محسوب میشه. یعنی کلی آدم به خاطر دیر تشخیص داده شدن یا مشکلات دیگه، جونشونو از دست میدن. بنابراین هر روشی که بتونه زودتر و دقیقتر به تشخیص این بیماری کمک کنه، واقعاً ارزشمنده.
تو این مقاله درباره استفاده از “Machine Learning” صحبت شده که همون یادگیری ماشین خودمونه. یعنی الگوریتمها و مدلهایی که میتونن با تحلیل دادهها، آینده رو پیشبینی کنن یا تصمیمگیری کنن. حالا این یادگیری ماشین توی پیشبینی ریسک سرطان ریه حسابی سروصدا کرده و میتونه کمک کنه که بیماران زودتر شناسایی بشن.
ولی یه مشکل بزرگ وجود داره؛ دیتاستای کلینیکی (یعنی همون مجموعه دادههایی که از بیماران جمعآوری کردن) معمولاً از لحاظ تعداد نمونهها متعادل نیست. مثلاً شاید بیشتر دادهها مربوط به کسانی باشه که سرطان داشتن و تعداد زیادی داده سالم وجود نداره. این رو بهش میگن “Class Imbalance” یا عدم توازن کلاسها. این اتفاق باعث میشه مدل وقتی قراره پیشبینی کنه، یه حالت جانبدارانه (bias) پیدا کنه و دقتش بیاد پایین.
برای حل این داستان، محققهای این مقاله اومدن سراغ تکنیکهای مختلف “Data Augmentation”. سادهش یعنی افزایش مصنوعی تعداد دادهها با روشهای مختلف، که باعث بشه مدلها بتونن بهتر و منصفانهتر یاد بگیرن. مثلاً یه تکنیکی به اسم “K-Means SMOTE” هست، که میاد با استفاده از خوشهبندی (کلاسترینگ) دادهها، نمونههای جدیدی اختراع میکنه، جوری که انگار کلی داده جدید داری!
تصورش رو بکن، وقتی این روشهای افزایش داده رو با مدلهای مختلف ترکیب کردن (که بهشون میگن “classification models”، یعنی مدلهای دستهبندی)، دیدن دقت پیشبینی حسابی میره بالا. در واقع، بهترین نتیجه زمانی به دست اومده که همین K-Means SMOTE رو با یه مدل به اسم “Multi-Layer Perceptron” یا همون شبکه عصبی چندلایه استفاده کردن. دقت این ترکیب شده حدود ۹۳.۵۵٪ که فوقالعادست! ضمناً امتیاز AUC-ROC هم گرفته ۹۶.۷۶. (AUC-ROC یه معیار دیگهس که سنجش دقت مدل تو دستهبندی رو نشون میده.)
ولی قسمت جذابترش چیه؟ اینکه فقط دقت بالا کافی نیست، باید معلوم باشه مدل چرا این پیشبینی رو انجام داده. برای همین از یه تکنولوژی به اسم “LIME” کمک گرفتن. LIME یه ابزار برای توضیح دادن تصمیمات مدلهای هوش مصنوعیه؛ یعنی نشون میده مدل دقیقاً به خاطر کدوم ویژگیها این پیشبینی رو کرده. این برای پزشکا و تصمیمگیری بالینی خیلی مهمه، چون نمیتونن فقط به یه مدل که دلیل نداره اعتماد کنن.
یه نکته مهم رو هم فراموش نکنیم: دیتاست این پژوهش کوچیک و تقریباً ۸۷.۴۵٪ش مبتلا به سرطانه، پس این کار بیشتر یه مقایسه علمی برای روشها بوده تا اینکه واقعاً ابزار نهایی پزشکی باشه. هنوز باید روی دیتاست بزرگتر و متنوعتر امتحان بشه. خلاصه این کار نشون میده برای دیتای نامتوازن، بهتره قبل از مدلسازی سراغ augmentation بریم و بعدشم دنبال مدلهایی بگردیم که باهاش بیشترین دقت رو میگیریم.
در مجموع، این تحقیق یه قدم مهم تو زمینه ترکیب دادهسازی، هوش مصنوعی و توضیحپذیری الگوریتمهاست. اگه آیندهای رو تصویر میکنید که هوش مصنوعی بتونه تشخیصهای پزشکی رو سریعتر و دقیقتر کنه، این تحقیقات واقعاً مهم و الهامبخشن!
منبع: +