شبکه چندمقیاسی و با نظارت عمیق برای پیدا کردن قسمت‌های دستکاری‌شده توی عکس‌ها!

بذار خیلی راحت و روراست بگم! این روزا با این همه برنامه و نرم‌افزار ویرایش عکس، یکی بخواد عکسی رو دستکاری یا خرابکاری کنه، واقعاً کار سختی نیست. حالا اگه این عکس‌های دست‌کاری‌شده پخش بشن، مخصوصاً توی رسانه‌ها، حتی می‌تونن باعث دردسرای بزرگ بشن یا گاهی امنیت کشورها رو به خطر بندازن. خب، میشه فهمید که چرا اینکه بفهمیم یه عکس دستکاری شده یا نه، انقدر مهمه!

یکی از چالش‌های اصلی اینه که بتونیم دقیقاً اون قسمت‌هایی از عکس رو شناسایی کنیم که از یه جای دیگه بریده شدن و چسبوندن (که بهش میگن image splicing). یعنی مثلاً یکی صورت خودشو بذاره روی یه بدن دیگه، یا یه چیزی رو از یه عکس دیگه بیاره وسط همین عکس! حالا پیدا کردن این تیکه‌ها، واقعاً راحت نیست، چون معمولاً خیلی حرفه‌ای این کار رو انجام میدن.

تا الان خیلی تحقیق‌ها و روش‌ها ساخته شده برای پیدا کردن این دستکاری‌ها، اما بیشترشون یه مشکل داشتن: نمی‌تونستن اطلاعات کلی و جزئی عکس رو جوری با هم ترکیب کنن که دقیق بفهمن چی عوض شده. واسه همین، یه روش جدید و باحال معرفی شده که اسمش خیلی پیچیده‌ست: “شبکه چندمقیاسی با نظارت عمیق برای مکان‌یابی دستکاری عکس” 🙂 ولی واقعاً ایده جالبیه!

داستانش این شکلیه که این شبکه با الهام از معماری encoder–decoder کار می‌کنه — Encoder یعنی بخشی از شبکه که اطلاعات اولیه رو جمع‌آوری و بررسی می‌کنه، decoder هم یعنی اون قسمتی که سعی می‌کنه با اون اطلاعات، خروجی مورد نظر رو بسازه. نکته جالب اینه که این شبکه توی بخش decoder، از چند سطح مختلف ویژگی‌های عکس استفاده می‌کنه تا بفهمه کدوم نقطه‌ها مشکوکن و احتمالاً دستکاری شدن. اصلاً انگار داره با ذره‌بین، پیکسل به پیکسل عکس رو بررسی می‌کنه!

یه بخش خفن دیگه این مدله داره به اسم ماژول استخراج ویژگی چندمقیاسی (multi-scale feature extraction module). خیلی راحت بخوام بگم، این ویژگی باعث میشه که شبکه همزمان هم ریزه‌کاری‌های عکس رو ببینه و هم یه نگاه کلی داشته باشه، یعنی هیچ قسمت مشکوکی از چشمش دور نمی‌مونه.

حالا سؤال: این مدل جدید چقدر خوب جواب میده؟ جوابش با یه سری آمار: توی دو دیتاست معتبر که خیلی ازشون برای آزمایش استفاده میشه (CASIA و COLUMB) تونسته امتیاز F1 معادل 0.891 و 0.864 بگیره — این F1 Score یعنی یه جور معیار اندازه‌گیری دقت، که هرچی به ۱ نزدیک‌تر باشه یعنی مدل کارش رو خیلی درست انجام داده. پس این شبکه به خوبی تونسته جای قسمت‌های دستکاری‌شده رو توی عکس‌ها به شکل دقیق پیدا کنه.

در کل، تحقیق نشون میده اگه بخوایم جلوی پخش عکس‌های دستکاری توی اینترنت و رسانه‌ها رو بگیریم، باید سراغ این روش‌های عمیق و ترکیبی بریم که هم جزئیات رو می‌بینن، هم تصویر کلی رو در نظر می‌گیرن، و خلاصه خیلی هوشمندن!

منبع: +