ترمیم عکس‌های زیر آب با رنگ واقعی: خدایی، این مدل GAN دیگه واقعاً ترکونده!

خب رفقا، امروز میخوام براتون یه مدل جدید و خفن توی دنیا‌ی هوش مصنوعی معرفی کنم که کارش درست کردن و واقعی‌تر نشون دادن عکساییه که زیر آب گرفته شدن. اگه تجربه‌ی عکاسی زیر آب رو داشته باشید، حتماً اینو دیدید که عکس‌ها معمولاً کدر و عجیب غریب میشن، انگار یه مه غلیظ همه‌چی رو گرفته! دلیلش هم ساده‌س؛ نور وقتی وارد آب میشه، پراکنده و ضعیف میشه، و هرچی عمق بیشتر باشه، رنگ‌ها بیشتر از بین میرن. خلاصه اینکه عکس گرفتن زیر آب یعنی فاجعه‌ی رنگ و کیفیت! 🫠

حالا دانشمندای دنیای هوش مصنوعی اومدن سَرِ این مشکل، یه راه‌حل خیلی توپ پیشنهاد دادن. مدل‌هایی مثل GAN قبلاً امتحان شدن، ولی هنوز تک ژنراتور بودن و نمی‌تونستن همه‌ی مشکلات رو با هم حل کنن. اینجا اگه با GAN آشنا نیستی، الکی تلقین نکن که چیز خفنیه! GAN در واقع یه نوع مدل یادگیری عمیقه که دوتا شبکه‌ی رقیب داره: یکی داره عکس درست میکنه (Generator)، یکی دیگه داره میگه این عکس تقلبیه یا واقعیه (Discriminator).

ولی تا الان اکثر مدل‌های GAN فقط یه دونه Generator داشتن، اما مشکل اینجاست که وقتی پای عکسای خراب و پیچیده زیر آب وسط باشه، یه Generator کلاً کم میاره! چون انواع و اقسام از خرابی‌ها و کیفیت‌های مختلف وجود دارن و یه Generator نمی‌تونه همه‌شونو خوب درست کنه.

حالا بریم سر اصل ماجرا! مدل جدیدی که تو این مقاله معرفی شده اسمش xOp-GAN هست. میدونی فرقش چیه؟ این مدل اومده چندتا Generator متخصص گذاشته! هر کدوم از این Generatorها فقط روی یه دسته خاص از عکسای خراب آموزش دیدن (مثلاً یکی روی عکسای خیلی افتضاح، یکی برای کمی خراب، یکی برای تقریباً خوب). حالا هر عکسی بیاد، همه‌شون تلاش می‌کنن درستش کنن و هر کدوم بهتر بتونه اون عکس رو ترمیم کنه، میره بالا!

ولی اینجا یه نکته جالب‌ترم هست! توی بسیاری از مدل‌های قبلی، Discriminator فقط کمک می‌کرد توی مرحله آموزش بگه عکس‌ها فیک هستن یا واقعی. اما اینجا تو xOp-GAN حتی موقع پیش‌بینی (یعنی وقتی میخوای واقعا یه عکس رو درست کنی) Discriminator خودش وارد عمل میشه و با نمره اطمینانی که میده، کمک می‌کنه تصمیم بگیریم کدوم Generator بهترین کار رو انجام داده! (Discriminator یعنی شبکه‌ای که کارش تشخیص اینه که یه تصویر واقعی‌تره یا غیرواقعی.)

خلاصه بگم: xOp-GAN اولین GAN با چندتا Generator هست که Discriminatorش وسط کار inference هم نقش داره و تصمیم‌گیرنده نهایی میشه.

آزمایشا هم روی دیتاست بزرگ LSUI (Large Scale Underwater Image Dataset که یعنی مجموعه‌ی بزرگ عکس‌های زیرآبی!) انجام دادن و نتیجه‌ش واقعاً عالی بوده. این مدل تونسته تا 25.16 دسیبل PSNR (PSNR یعنی معیاری برای مقایسه کیفیت تصویر بازسازی شده نسبت به تصویر اصلی – هرچی بیشتر باشه، یعنی کیفیت بهتر!) به دست بیاره که نسبت به مدل‌های قبلی با یه Generator اختلاف خیلی زیادی داره و با اینکه شبکه رو پیچیده‌تر نکرده، کیفیت خیلی بهتر شده.

در کل، این xOp-GAN نشون داده که اگه یه کار رو بندازی دست چندتا متخصص – اینجا چندتا Generator – نتیجه خیلی بهتر میشه تا همه رو بسپری دست یکی! اگه دنبال عکسای تمیز و خوشگل زیر آب هستی، این مدل رو حتماً باید بزاری تو لیست ابزارای هوش مصنوعی که باید امتحانش کنی. ☺️

منبع: +