تشخیص عکس‌های ساختگی با انگشت‌نگاری صوتی و هوش مصنوعی!

خب بذار همین اول یه چیزی رو بگم. حتماً تا حالا اسم GAN یا همون Generative Adversarial Networks به گوشت خورده که مثلاً هوش مصنوعی هستن و خودشون می‌تونن عکس‌های خیلی واقعی بسازن! (یعنی اگه ندونی که روبروت عکس واقعیه یا ساخته‌ی GAN، واقعاً گیج می‌شی!)

حالا مشکل اینجاست که این عکس‌ها انقدر طبیعی شدن که شناسایی‌شون واقعاً برای خیلی‌ها و حتی سیستم‌های صنعتی سخت شده. مخصوصاً جاهایی که باید بدونن یه عکس واقعی و قابل اعتماده یا نه. اینجاست که مقاله‌ای که الان خلاصه‌ش رو واست تعریف می‌کنم، وارد ماجرا می‌شه.

تو این مقاله یه روشی رو معرفی کردن که با استفاده از ترکیب دو تکنیک باحال می‌تونه عکس‌هایی که با StyleGAN (یعنی همون مدل GAN معروف برای ساخت عکس‌های حرفه‌ای) ساخته شدن رو از عکس‌های واقعی تشخیص بده.

داستان از این قراره:

اول میان عکس‌ها رو با یه روش خاص به اسم Discrete Fourier Transform یا خلاصه‌ش DFT آنالیز می‌کنن. (DFT یه تکنیک ریاضی برای تبدیل سیگنال یا عکس به دنیای فرکانس‌هاست؛ یعنی به‌جای ظاهر، به باطن و تکرارهای نامحسوس عکس نگاه می‌کنه.)

چرا این کار رو می‌کنن؟ چون عکس‌های GAN معمولاً یه اثرای ریز و دوره‌ای تو دنیای فرکانس دارن که چشم ما نمی‌بینه اما تو دنیای «فوریه» کاملا تابلو می‌شن! میگن به اینا انگشت‌نگاری یا Fingerprint عکس‌های GAN.

حالا بعدش این عکس‌های تبدیل‌شده به دنیای فوریه رو می‌ذارن جلوی یه شبکه عصبی قدرتمند به اسم ResNet50 (ResNet50 یعنی یه مدل یادگیری عمیق که قابلیت تشخیص تصویرش حرف نداره!) و این مدل رو آموزش می‌دن که فرق بین عکس واقعی و عکس ساخته‌شده با GAN رو تو همین دنیای فرکانس‌ها یاد بگیره.

نتیجه؟ مدلشون تونسته با دقت ۹۲.۸ درصدی و شاخص AUC برابر با ۰.۹۵، عکس‌های تقلبی GAN رو تشخیص بده! (AUC یعنی شاخصی که نشون می‌ده مدل چقدر خوب می‌تونه بین دوتا دسته فرق بذاره. هر چی نزدیک‌تر به ۱ باشه یعنی مدل توپ کار کرده.) این دقت خیلی بیشتر از زمانی بود که همون مدل رو روی عکس‌های خام بدون تبدیل فوریه آموزش دادن.

پس چی درمیاد؟ عکس‌های GAN تو فضای فرکانسی یه سری امضای خاص دارن که خیلی راحت‌تر می‌تونیم گیرشون بندازیم. این روش می‌تونه برای شرکت‌ها و سیستم‌های صنعتی که باید مطمئن باشن با محتوای جعلی طرف نشدن به شدت کاربردی باشه.

در کل، مقاله بهمون نشون می‌ده ترکیب تکنیک‌های پردازش سیگنال (یعنی کارهایی مثل همین فوریه گرفتن) با یادگیری عمیق (همون هوش مصنوعی) می‌تونه اعتماد به محتوای دیجیتال رو خیلی خیلی بیشتر کنه و جلوی سواستفاده از عکسای تقلبی رو بگیره!

خلاصه اگه می‌خوای بدونی یه عکس جعلی GAN جلوت گذاشتن یا با یه عکس واقعی طرفی، این روش ممکنه آینده‌ی تشخیص عکس‌های تقلبی باشه!

منبع: +