خب بذار برات ساده و خودمونی بگم. تو بحث دکترها و متخصصا، یه داستان تکراری هست به اسم گره تیروئید. واسه اینکه بدونن این گرهها سرطانی هستن یا نه، معمولاً از سونوگرافی استفاده میکنن؛ یعنی همون عکسی که با دستگاه روی گلوی طرف میکشن و داخلش رو میبینن.
حالا پیدا کردن گره تو این عکسا خیلی راحت نیست. چرا؟ چون چند تا مشکل سفت و سخت دارن: یکیش اینکه کسی دقیقاً نمیدونه منطقه تیروئید کجای تصویر هست. دیگه اینکه کنتراست یا همون تفاوت رنگ و روشنی بین اجزای تصویر پایینه. تازه یه چیز اضافه هم هست به اسم نویز اسپکل (Speckle Noise)، یعنی یه جور بهمریختگی و دونهدونه شدن تصویرا که مرز گرهها رو گم و گور میکنه!
تا حالا مدلای کامپیوتری زیادی برای این تقسیمبندی امتحان کردن، مثلاً مدل CNN که مخفف Convolutional Neural Network هست و قبلاً کلی تو کار تصویر جواب داده. ولی این مدلها اکثراً فقط میتونن منطقههای کوچیک رو یه جا بررسی کنن و خیلی هوش و حواس به کل صفحه ندارن.
اینجا جاییه که مدل ترنسفورمر وسط میاد. ترنسفورمر (Transformer) یه نوع معماری پیشرفته تو یادگیری ماشینیه که کل تصویر رو از همون اول میبینه و شبیه اون سیمکشیای چندارتصالی، اطلاعات رو بههم وصل میکنه. یه جور خلاصه بگم: برخلاف مدلای CNN، ترنسفورمرها میتونن ارتباطهای دور و نزدیک رو باهم بفهمن و سرنخهای بیشتری گیرشون میاد. اینجا واسه گرهبندی تیروئید این ویژگی خیلی کمک میکنه.
حالا بچههای مقاله اومدن روی این مدل ترنسفورمر یه تکنیک باحال پیاده کردن به اسم Masked Autoencoder یا به طور خلاصه MAE. یعنی میآن یه قسمتهایی از تصویر رو میپوشونن، بعد آموزش میدن مدل اونو بازسازی کنه. اینجوری، مدل یاد میگیره حتی اگه تیکههایی گم باشه، بقیه رو از روی بخشای سالم حدس بزنه و خودش رو قوی کنه.
توی آزمایششون، اول مدل MAE رو فقط روی بازسازی تصویر آموزش دادن (که بهش میگن pre-training یا پیشآموزش)، بعد انداختنش روی دادههای سونوگرافی تیروئید تا جداسازی گرهها رو تمرین کنه. حتی واسه بهتر شدن مدل، یه قابلیت دیگه اضافه کردن به اسم Cross-Attention. اینم یعنی اطلاعات بین بخش رمزگذار (encoder) و رمزگشا (decoder) بهتر رد و بدل بشه و مدل دید جامعتری داشته باشه.
چنتا دیتاست یا مجموعه داده معروف هم استفاده کردن: AIMI، TN3K، و DDTI. حالا بذار بریم سر نتایج که معمولاً همه منتظرشن:
نتیجه گیری و دیتاها
مدل با وجود همه این تکنیکها جمعاً تونست به ضرایب Dice Similarity Coefficient یا همون DSC بین ۰٫۶۳ تا ۰٫۶۵ برسه (تو سه دیتاست اصلی؛ AIMI: ۰٫۶۳، TN3K: ۰٫۶۴، DDTI: ۰٫۶۵). عدد DSC یه جور شاخصه برای مقایسه تقسیمبندی مدل با جواب درست. هرچی به ۱ نزدیکتر باشه یعنی عالی، نزدیک ۰ یعنی خوب پیش نرفته.
البته، یه نکته رو خودشون هم گفتن: جریان MAE باعث شد مدل زودتر یاد بگیره و زمان آموزش کمتر شد، اما دقت نهایی مدل، چندان پَریده نکرد چون تعداد مثالها کم بوده و شکل گرهها تو تصاویر خیلی باهم فرق میکرد. خلاصه، با هر ترفندی که زدن، تعداد داده و تنوعش هنوز پاشنه آشیل قضیهس.
یه چیز جالب دیگم اینه که افزودن اون بخش Cross-Attention هم خیلی معجزه نکرد و دیدن بیشتر نیاز به داده دارن تا اینکه هی مدل رو پیچیدهتر کنن.
در کل، پایانبندی مقالهشون اینه: پیشآموزش با MAE به مدل کمک میکنه کلی ویژگی کاربردی یاد بگیره و سرعت آموزش بالا میره، ولی برا دقت بالا نیاز به دیتاست بزرگتر و متنوعتر هست. از این به بعد برنامه دارن که داده رو گسترش بدن، روی همون Cross-Attention هم پیشآموزش انجام بدن، و مدلهای ترکیبی تازه رو برای جداسازی گرههای تیروئید امتحان کنن.
اگر از این موضوعات خوشت اومد، بدون مدلهای ترنسفورمر کلی پتانسیل دارن تو تصویربرداری پزشکی، اما معجزه اصلی وقتی اتفاق میافته که داده و مثال زیاد و متنوع باشه!
منبع: +