خب بچهها، بذارین یه موضوع مهم تو دنیای پزشکی رو باهم باز کنیم: بخشبندی معنایی یا همون «Semantic segmentation». این یعنی هر نقطه از تصویر رو، مثلاً عکس MRI یا CT اسکن، دقیقاً معلوم کنیم مربوط به کدوم اندامه یا مثلا توموره یا بافت سالم. خیلی مهمه برای تشخیص بیماریها، ولی تا الان مدلا یا مدلهای تخصصی که برای این کار استفاده میشن، هرکدومشون فقط واسه یه کار خاص خوبن و وقتی یه کار جدید یا داده جدید پیش بیاد، قاطی میکنن.
تو سالهای اخیر چندتا ایده جدید اومده که سر و صدای زیادی هم کردن: یکیشون «مدلهای همهفنحریف» یا همون universal segmentation methods هستن. یعنی مدلی که واسه هر تصویر پزشکی، فرقی نمیکنه فرمت یا دستگاهش چیه، بتونه کار کنه. این مدلها کلی مزیت دارن: با نمونههای کمتر هم نتیجه خوبی میگیرن، راحتتر میشه تو جریان نشونگذاری تصاویر (annotation pipelines یعنی همون فرآیند برچسبزدن دادهها) ازشون استفاده کرد و واسه پروژههای مختلف خیلی سریع جابهجا میشن.
حالا ایده نابی که تو این مقاله مطرح شده، اضافه کردن یه مکانیزم «توجه متقاطع» یا cross-attention هست؛ یعنی مدل موقع کار، فقط به قسمتهایی از دادهها توجه میکنه که واقعا به بخشبندی اون تصویر ربط دارن. گفتن که اگه از قبل چندتا تصویر مرتبط (بهش میگن support set، یعنی یه سری عکس نمونه با برچسب درست) رو هم به مدل نشون بدیم و اجازه بدیم مدل روابط درست بین عکس جدید و این نمونهها رو پیدا کنه، دقت کارمون کلی میره بالا.
نکته جذابترش اینه که مدل با یه راه حل نوآورانه به اسم attention up-scaling میاد و محاسبات توجه بین تصاویر جدید و نمونه رو تو یه مقیاس کوچیک انجام میده، بعدش نتیجه رو میبره به رزولوشن بالا. یعنی هم محاسبات سبکتر میشه، هم نتیجه دقیقتر. اینو بذار کنار اینکه مدل به صورت ذاتی «قابل توضیح» هم هست! یعنی میتونیم بفهمیم مدل دقیقاً چرا هر تصمیمی رو گرفته، کدوم قسمتهای عکسهای نمونه رو به عنوان مرجع انتخاب کرده. قابل توضیح بودن سیستمها (Explainability) یعنی بشه فهمید تصمیم و خروجی مدل رو از کجا آورده و چه الگویی براش داشته، که تو پزشکی خیلی مهمه چون بالاخره جون آدمها در میونه.
نتایج؟ اومدن این روش رو روی ۲۹ دیتاست پزشکی مختلف (از ۹ نوع تصویربرداری، مثلاً MRI، CT، سونوگرافی و…) و ۱۳۵ وظیفه بخشبندی امتحان کردن، نتیجهش این بوده که هم مدلهای سنگین هم سبک تقریباً همهجا کارشون رو بهتر انجام دادن. حتی نشون دادن هرچی عکس نمونه (support set) بیشتری در اختیار مدل باشه، باز هم بهتر یاد میگیره و بهتر میتونه عکس جدید رو بخشبندی کنه. ضمناً این بخش «توجه متقاطع» جوری کار میکنه که از بین نمونهها، واقعاً مرتبطترینها رو انتخاب میکنه و کمک میکنه نتیجه بهتر بشه.
آخر سر هم یک ماژول مخصوص برای قابل توضیح بودن درست کردن که در مقایسه با روشهای مرسوم قبلی مثل LayerCAM (این یه تکنیک معروفه برای فهمیدن مدلهای بینایی که با نشون دادن لایههای حساس تصویر کار میکنه) یا حتی بهتر یا حداقل به همون خوبی جواب داده. خلاصه خیلی جذاب شده!
کلاً اگر دوست داری مدل بخشبندی داشته باشی که هر نوع تصویر پزشکی رو بخشبندی کنه، نمونههای کم رو هم خوب یاد بگیره، راحت بشه دلیل تصمیمهاش رو فهمید و واسه پروژههای مختلف راحت جابجا شه، این روش جدید کلی امتیاز واست داره! همین کارهاست که آینده پزشکی رو شفافتر و هوشمندانهتر میکنه.
منبع: +