یه روش باحال و همه‌فن‌حریف برای بخش‌بندی تصاویر پزشکی با کمک توجه و دوستانش!

خب بچه‌ها، بذارین یه موضوع مهم تو دنیای پزشکی رو باهم باز کنیم: بخش‌بندی معنایی یا همون «Semantic segmentation». این یعنی هر نقطه از تصویر رو، مثلاً عکس MRI یا CT اسکن، دقیقاً معلوم کنیم مربوط به کدوم اندامه یا مثلا توموره یا بافت سالم. خیلی مهمه برای تشخیص بیماری‌ها، ولی تا الان مدلا یا مدل‌های تخصصی که برای این کار استفاده میشن، هرکدومشون فقط واسه یه کار خاص خوبن و وقتی یه کار جدید یا داده جدید پیش بیاد، قاطی می‌کنن.

تو سال‌های اخیر چندتا ایده جدید اومده که سر و صدای زیادی هم کردن: یکی‌شون «مدل‌های همه‌فن‌حریف» یا همون universal segmentation methods هستن. یعنی مدلی که واسه هر تصویر پزشکی، فرقی نمی‌کنه فرمت یا دستگاهش چیه، بتونه کار کنه. این مدل‌ها کلی مزیت دارن: با نمونه‌های کمتر هم نتیجه خوبی می‌گیرن، راحت‌تر میشه تو جریان نشون‌گذاری تصاویر (annotation pipelines یعنی همون فرآیند برچسب‌زدن داده‌ها) ازشون استفاده کرد و واسه پروژه‌های مختلف خیلی سریع جابه‌جا می‌شن.

حالا ایده نابی که تو این مقاله مطرح شده، اضافه کردن یه مکانیزم «توجه متقاطع» یا cross-attention هست؛ یعنی مدل موقع کار، فقط به قسمت‌هایی از داده‌ها توجه می‌کنه که واقعا به بخش‌بندی اون تصویر ربط دارن. گفتن که اگه از قبل چندتا تصویر مرتبط (بهش میگن support set، یعنی یه سری عکس نمونه با برچسب درست) رو هم به مدل نشون بدیم و اجازه بدیم مدل روابط درست بین عکس جدید و این نمونه‌ها رو پیدا کنه، دقت کارمون کلی میره بالا.

نکته جذاب‌ترش اینه که مدل با یه راه حل نوآورانه به اسم attention up-scaling میاد و محاسبات توجه بین تصاویر جدید و نمونه رو تو یه مقیاس کوچیک انجام میده، بعدش نتیجه رو می‌بره به رزولوشن بالا. یعنی هم محاسبات سبک‌تر میشه، هم نتیجه دقیق‌تر. اینو بذار کنار اینکه مدل به صورت ذاتی «قابل توضیح» هم هست! یعنی می‌تونیم بفهمیم مدل دقیقاً چرا هر تصمیمی رو گرفته، کدوم قسمت‌های عکس‌های نمونه رو به عنوان مرجع انتخاب کرده. قابل توضیح بودن سیستم‌ها (Explainability) یعنی بشه فهمید تصمیم و خروجی مدل رو از کجا آورده و چه الگویی براش داشته، که تو پزشکی خیلی مهمه چون بالاخره جون آدم‌ها در میونه.

نتایج؟ اومدن این روش رو روی ۲۹ دیتاست پزشکی مختلف (از ۹ نوع تصویربرداری، مثلاً MRI، CT، سونوگرافی و…) و ۱۳۵ وظیفه بخش‌بندی امتحان کردن، نتیجه‌ش این بوده که هم مدل‌های سنگین هم سبک تقریباً همه‌جا کارشون رو بهتر انجام دادن. حتی نشون دادن هرچی عکس نمونه (support set) بیشتری در اختیار مدل باشه، باز هم بهتر یاد می‌گیره و بهتر می‌تونه عکس جدید رو بخش‌بندی کنه. ضمناً این بخش «توجه متقاطع» جوری کار می‌کنه که از بین نمونه‌ها، واقعاً مرتبط‌ترین‌ها رو انتخاب می‌کنه و کمک می‌کنه نتیجه بهتر بشه.

آخر سر هم یک ماژول مخصوص برای قابل توضیح بودن درست کردن که در مقایسه با روش‌های مرسوم قبلی مثل LayerCAM (این یه تکنیک معروفه برای فهمیدن مدل‌های بینایی که با نشون دادن لایه‌های حساس تصویر کار می‌کنه) یا حتی بهتر یا حداقل به همون خوبی جواب داده. خلاصه خیلی جذاب شده!

کلاً اگر دوست داری مدل بخش‌بندی داشته باشی که هر نوع تصویر پزشکی رو بخش‌بندی کنه، نمونه‌های کم رو هم خوب یاد بگیره، راحت بشه دلیل تصمیم‌هاش رو فهمید و واسه پروژه‌های مختلف راحت جابجا شه، این روش جدید کلی امتیاز واست داره! همین کارهاست که آینده پزشکی رو شفاف‌تر و هوشمندانه‌تر می‌کنه.

منبع: +