خب رفقا، امروز میخوام براتون یه مدل جدید و خفن توی دنیای هوش مصنوعی معرفی کنم که کارش درست کردن و واقعیتر نشون دادن عکساییه که زیر آب گرفته شدن. اگه تجربهی عکاسی زیر آب رو داشته باشید، حتماً اینو دیدید که عکسها معمولاً کدر و عجیب غریب میشن، انگار یه مه غلیظ همهچی رو گرفته! دلیلش هم سادهس؛ نور وقتی وارد آب میشه، پراکنده و ضعیف میشه، و هرچی عمق بیشتر باشه، رنگها بیشتر از بین میرن. خلاصه اینکه عکس گرفتن زیر آب یعنی فاجعهی رنگ و کیفیت! 🫠
حالا دانشمندای دنیای هوش مصنوعی اومدن سَرِ این مشکل، یه راهحل خیلی توپ پیشنهاد دادن. مدلهایی مثل GAN قبلاً امتحان شدن، ولی هنوز تک ژنراتور بودن و نمیتونستن همهی مشکلات رو با هم حل کنن. اینجا اگه با GAN آشنا نیستی، الکی تلقین نکن که چیز خفنیه! GAN در واقع یه نوع مدل یادگیری عمیقه که دوتا شبکهی رقیب داره: یکی داره عکس درست میکنه (Generator)، یکی دیگه داره میگه این عکس تقلبیه یا واقعیه (Discriminator).
ولی تا الان اکثر مدلهای GAN فقط یه دونه Generator داشتن، اما مشکل اینجاست که وقتی پای عکسای خراب و پیچیده زیر آب وسط باشه، یه Generator کلاً کم میاره! چون انواع و اقسام از خرابیها و کیفیتهای مختلف وجود دارن و یه Generator نمیتونه همهشونو خوب درست کنه.
حالا بریم سر اصل ماجرا! مدل جدیدی که تو این مقاله معرفی شده اسمش xOp-GAN هست. میدونی فرقش چیه؟ این مدل اومده چندتا Generator متخصص گذاشته! هر کدوم از این Generatorها فقط روی یه دسته خاص از عکسای خراب آموزش دیدن (مثلاً یکی روی عکسای خیلی افتضاح، یکی برای کمی خراب، یکی برای تقریباً خوب). حالا هر عکسی بیاد، همهشون تلاش میکنن درستش کنن و هر کدوم بهتر بتونه اون عکس رو ترمیم کنه، میره بالا!
ولی اینجا یه نکته جالبترم هست! توی بسیاری از مدلهای قبلی، Discriminator فقط کمک میکرد توی مرحله آموزش بگه عکسها فیک هستن یا واقعی. اما اینجا تو xOp-GAN حتی موقع پیشبینی (یعنی وقتی میخوای واقعا یه عکس رو درست کنی) Discriminator خودش وارد عمل میشه و با نمره اطمینانی که میده، کمک میکنه تصمیم بگیریم کدوم Generator بهترین کار رو انجام داده! (Discriminator یعنی شبکهای که کارش تشخیص اینه که یه تصویر واقعیتره یا غیرواقعی.)
خلاصه بگم: xOp-GAN اولین GAN با چندتا Generator هست که Discriminatorش وسط کار inference هم نقش داره و تصمیمگیرنده نهایی میشه.
آزمایشا هم روی دیتاست بزرگ LSUI (Large Scale Underwater Image Dataset که یعنی مجموعهی بزرگ عکسهای زیرآبی!) انجام دادن و نتیجهش واقعاً عالی بوده. این مدل تونسته تا 25.16 دسیبل PSNR (PSNR یعنی معیاری برای مقایسه کیفیت تصویر بازسازی شده نسبت به تصویر اصلی – هرچی بیشتر باشه، یعنی کیفیت بهتر!) به دست بیاره که نسبت به مدلهای قبلی با یه Generator اختلاف خیلی زیادی داره و با اینکه شبکه رو پیچیدهتر نکرده، کیفیت خیلی بهتر شده.
در کل، این xOp-GAN نشون داده که اگه یه کار رو بندازی دست چندتا متخصص – اینجا چندتا Generator – نتیجه خیلی بهتر میشه تا همه رو بسپری دست یکی! اگه دنبال عکسای تمیز و خوشگل زیر آب هستی، این مدل رو حتماً باید بزاری تو لیست ابزارای هوش مصنوعی که باید امتحانش کنی. ☺️
منبع: +