اگه اهل تکنولوژی و مخصوصاً موضوعات هوش مصنوعی تو پزشکی باشی، احتمالاً اسم Vision Transformers یا به اختصار ViTs به گوشت خورده. اینا مدلهایی هستن که کلی سر و صدا کردن چون توی تشخیص تصاویر عادی عملکرد خوبی داشتن. اما وقتی وارد میدان تصاویر پزشکی (مثل سیتی اسکن، آندوسکوپی یا عکسهای پوستی) میشن، یه سری مشکل دارن. دلیلش هم اینه که ViTs یه سری پیشفرض یا اصطلاحاً “bias” واسه ساختارهای محلی (یعنی جزییات کوچیک تو تصویر) ندارن و نمیتونن خودشون رو با نوعهای مختلف داده تطبیق بدن.
حالا یه تیم باحال اومدن یه مدل جدید ساختن به اسم Pyramid Feature Fusion Network یا همون PFF-Net که کارش اینه که نقاط قوت CNNها (که تو گرفتن جزییات محلی خیلی خوبن) رو با قابلیتهای دید کلی و سراسری ViTs ترکیب کنه. خب حالا این مدل چطوری کار میکنه؟
PFF-Net دوتا شاخه داره:
- شاخه منطقهای یا Region-aware Branch: این یکی میاد اطلاعات بزرگ و کوچیک رو از تصویر میگیره و بینش رو از کلیات تا جزییات ترکیب میکنه. بهش میگن pyramid fusion چون اطلاعات رو مثل هرم، از ریز به درشت و برعکس میبره بالا و پایین.
- شاخه مرز-آگاه یا Boundary-aware Branch: این شاخه جالبه! برای اینکه بتونه مرزهای دقیق از بافت بدن رو تشخیص بده، از یک ترفند به اسم Sobel operators استفاده میکنه (اگه نمیدونی Sobel چیه، یه جور ابزار پردازش تصویر برای پیدا کردن مرزها و لبههای تیز هر شیء تو عکس هست) به اضافه اطلاعات تصویری سطح پایین. یعنی ترکیبِ ترفندهای کلاسیک و هوش مصنوعی!
حالا نکته خوشگلش اینجاست که این مدل پیشبینیهای شاخه مرز رو دوباره برمیگردونه به شاخه منطقهای. یعنی چی؟ یعنی اون جایی که مدل میگه اینجا مرز منطقهاس رو دوباره بهش یادآوری میکنه و دقتش رو تو جدا کردن اندامها بالا میبره. مثل جایزه اشتباهاتو درست کن! در نهایت این دوتا شاخه هی مدام به هم کمک میدن تا نتیجه بهتر و دقیقتری بدن.
اما بذار برسیم به نتایجش که ملت رو شگفتزده کرده:
- توی تشخیص پولیپ (همون زایدههای داخل روده و …)، مدلی که ساختن تونست نمره Dice رو به 91.87% برسونه. (نمره Dice یه معیار برای اندازهگیری کیفیت تشخیص قسمتهای درست تو تصویر هست.) این مقدار 5.6% بهتر از TransUNet (مدل پایه قبلی) بود و خطای HD95 رو تقریباً نصف کرد! (HD95 یعنی فاصلهی بدترین نقاط مرزی که مدل پیدا میکنه. هرچی کمتر باشه بهتره.)
- توی بخش سیتی طحال (spleen CT segmentation)، نمره Dice به 95.33% رسید که بهتر از ESFPNet-S (با 4.3% افزایش دقت) بود و دوباره خطای مرزی رو نصف کرد!
- حتی توی عکسهای تشخیص ضایعات پوستی هم Dice رسید به 90.29% که نشوندهنده 7.3% بهبود بوده نسبت به مدل قبلی.
در کل، اگه بخوام جمعبندی کنم، این رویکرد جدید با ترکیب هوشمندانه شبکههای CNN و ترنسفورمر (همون مدلهایی که بهشون ViT هم میگن) بعلاوه درک مرزها، نشون داده که میشه با دادههای کم اما مدل دقیق، حتی توی حوزههایی که تا حالا مدلهای معمولی جواب نمیدادن، نتایج خیلی بهتری گرفت. یعنی کاملاً جواب داده و رو هر نوع تصویر پزشکی مختلف خیلی خوب کار کرده و اشتباهش هم نسبت به قبلیا واقعاً کمتر شده.
کلاً اگه دنبال مدلهایی هستی که هم با داده کم کار کنن و هم تشخیصاشون دقیق باشه، این روش کلی حرف واسه گفتن داره!
منبع: +