یه روش باحال برای تشخیص دقیق تصاویر پزشکی: ترکیب CNN و ترنسفورمرها با چاشنی مرز بندی!

اگه اهل تکنولوژی و مخصوصاً موضوعات هوش مصنوعی تو پزشکی باشی، احتمالاً اسم Vision Transformers یا به اختصار ViTs به گوشت خورده. اینا مدل‌هایی هستن که کلی سر و صدا کردن چون توی تشخیص تصاویر عادی عملکرد خوبی داشتن. اما وقتی وارد میدان تصاویر پزشکی (مثل سی‌تی اسکن، آندوسکوپی یا عکس‌های پوستی) میشن، یه سری مشکل دارن. دلیلش هم اینه که ViTs یه سری پیش‌فرض یا اصطلاحاً “bias” واسه ساختارهای محلی (یعنی جزییات کوچیک تو تصویر) ندارن و نمی‌تونن خودشون رو با نوع‌های مختلف داده تطبیق بدن.

حالا یه تیم باحال اومدن یه مدل جدید ساختن به اسم Pyramid Feature Fusion Network یا همون PFF-Net که کارش اینه که نقاط قوت CNNها (که تو گرفتن جزییات محلی خیلی خوبن) رو با قابلیت‌های دید کلی و سراسری ViTs ترکیب کنه. خب حالا این مدل چطوری کار می‌کنه؟

PFF-Net دوتا شاخه داره:

  1. شاخه منطقه‌ای یا Region-aware Branch: این یکی میاد اطلاعات بزرگ و کوچیک رو از تصویر می‌گیره و بینش رو از کلیات تا جزییات ترکیب می‌کنه. بهش میگن pyramid fusion چون اطلاعات رو مثل هرم، از ریز به درشت و برعکس می‌بره بالا و پایین.
  2. شاخه مرز-آگاه یا Boundary-aware Branch: این شاخه جالبه! برای اینکه بتونه مرزهای دقیق از بافت بدن رو تشخیص بده، از یک ترفند به اسم Sobel operators استفاده می‌کنه (اگه نمی‌دونی Sobel چیه، یه جور ابزار پردازش تصویر برای پیدا کردن مرزها و لبه‌های تیز هر شیء تو عکس هست) به اضافه اطلاعات تصویری سطح پایین. یعنی ترکیبِ ترفندهای کلاسیک و هوش مصنوعی!

حالا نکته خوشگلش اینجاست که این مدل پیش‌بینی‌های شاخه مرز رو دوباره برمی‌گردونه به شاخه منطقه‌ای. یعنی چی؟ یعنی اون جایی که مدل می‌گه اینجا مرز منطقه‌اس رو دوباره بهش یادآوری می‌کنه و دقتش رو تو جدا کردن اندام‌ها بالا می‌بره. مثل جایزه اشتباهاتو درست کن! در نهایت این دوتا شاخه هی مدام به هم کمک می‌دن تا نتیجه بهتر و دقیق‌تری بدن.

اما بذار برسیم به نتایجش که ملت رو شگفت‌زده کرده:

  • توی تشخیص پولیپ (همون زایده‌های داخل روده و …)، مدلی که ساختن تونست نمره Dice رو به 91.87% برسونه. (نمره Dice یه معیار برای اندازه‌گیری کیفیت تشخیص قسمت‌های درست تو تصویر هست.) این مقدار 5.6% بهتر از TransUNet (مدل پایه قبلی) بود و خطای HD95 رو تقریباً نصف کرد! (HD95 یعنی فاصله‌ی بدترین نقاط مرزی که مدل پیدا می‌کنه. هرچی کمتر باشه بهتره.)
  • توی بخش سی‌تی طحال (spleen CT segmentation)، نمره Dice به 95.33% رسید که بهتر از ESFPNet-S (با 4.3% افزایش دقت) بود و دوباره خطای مرزی رو نصف کرد!
  • حتی توی عکس‌های تشخیص ضایعات پوستی هم Dice رسید به 90.29% که نشون‌دهنده 7.3% بهبود بوده نسبت به مدل قبلی.

در کل، اگه بخوام جمعبندی کنم، این رویکرد جدید با ترکیب هوشمندانه شبکه‌های CNN و ترنسفورمر (همون مدل‌هایی که بهشون ViT هم می‌گن) بعلاوه درک مرزها، نشون داده که میشه با داده‌های کم اما مدل دقیق، حتی توی حوزه‌هایی که تا حالا مدل‌های معمولی جواب نمی‌دادن، نتایج خیلی بهتری گرفت. یعنی کاملاً جواب داده و رو هر نوع تصویر پزشکی مختلف خیلی خوب کار کرده و اشتباهش هم نسبت به قبلیا واقعاً کمتر شده.

کلاً اگه دنبال مدل‌هایی هستی که هم با داده کم کار کنن و هم تشخیصاشون دقیق باشه، این روش کلی حرف واسه گفتن داره!

منبع: +