تا حالا عکس زیر آب دیدی که همه چیز تار و مهآلود باشه و معلوم نباشه چی به چیه؟ این مشکل برای کلی آدم و حتی کامپیوترها هم اذیتکنندهست! چون به خاطر پدیدهای مثل جذب نور و پخش شدنش تو آب، عکسهای زیرآبی معمولاً خیلی کیفیت خوبی ندارن و همهچی کمرنگ، بیجون و شبیه خاطرات گمشده میشه.
حالا داستان چیه؟ یه گروه از محققها اومدن با کمک یه مدل اسمارت به نام CLIP سعی کردن این مشکل رو حل کنن. بذار خیلی دوستونه برات توضیح بدم چی کار کردن و اصلاً CLIP چیه!
■ داستان مدل CLIP چیه؟
CLIP یه مدل هوش مصنوعیه که میتونه متن و تصویر رو با هم قاطی کنه و بفهمه چی تو عکسه. یعنی مثلاً وقتی میگی «ساحل زیبا»، مدل میتونه عکسهای مربوط به ساحل رو پیدا کنه یا حتی بفهمه این عکس الان بیشتر به چی شبیهه! خلاصه رو بگو: CLIP تو تحلیل معنای تصویر کلی استعدادی داره و خیلی مورد استفاده قرار میگیره.
■ مشکل روشهای قبلی چی بود؟
تا قبل از این، خیلیا با هوش مصنوعی دنبال این بودن که کیفیت عکس زیرآبی رو ببرن بالا. مثلاً مدل یادگیری عمیق، که یعنی هوش مصنوعی یاد میگیره چطور خودش عکسای بد رو بهتر کنه. اما اکثر این روشها یه چیزی رو فراموش میکنن: دید و سلیقه آدمها! یعنی چی؟ یعنی شاید عکس از نظر تکنیکی خوب شده باشه ولی وقتی خودت میبینی حس خوبی نمیگیری یا مثلاً رنگها مصنوعی شدن. علاوه بر این، این مدلها بعضی وقتها مرز مشخص بین تصویر خوب و بد رو ندارن و نمیتونن درست بسنجن چقدر تقویت کنن.
■ راهحلی که ارائه دادن چی بود؟
این محققها اومدن یه رویکرد جدید معرفی کردن که اسمش رو گذاشتن «تقویت عکس زیرآبی با کمک ادراک مدل CLIP»! این یعنی حالا مرحله به مرحله میخوان از چیزایی که CLIP تو تصویر میبینه، کمک بگیرن تا عکس تقویتشده شبیه همونی باشه که انسان حس میکنه باید باشه.
اونا یه چیزی به اسم “پرپچن لاس” یا ادراکِ از دسترفته تعریف کردن؛ این همون جاییه که مدل بررسی میکنه آیا خروجی واقعا به چیزی که چشم آدمی خوشش میاد نزدیکه یا نه. اینجوری مدل سراغ یه سری ویژگی معنایی و کلیتر از عکس میره و فقط به جزئیات فنی قانع نمیشه.
■ یه تکنیک خفن دیگه که استفاده کردن: Curriculum Contrastive Regularization
یه اسم باکلاس و البته ترسناک D: خلاصه بگم: این تکنیک کمک میکنه مدل یاد بگیره عکسهای مختلف سطح سختی متفاوت دارن. Curriculum یعنی مدل مثل دانشآموز از آسون به سخت جلو میره و contrastive regularization هم یعنی مدل فرق بین عکس درست، عکس اشتباه و عکس خراب رو قشنگ متوجه میشه. این کار باعث میشه مدل هم زیادهروی نکنه (یعنی تصویر رو بیش از حد دستکاری نکنه)، هم وسط راه دست از تقویت نکشه.
همه اینها با هم میشه یه شبکه هوش مصنوعی که هم دیدنِ تصویر رو برای آدمی شیرینتر میکنه و هم وظایف ماشینی مثل تشخیص اشیا زیر آب رو آسونتر و با دقتتر درمیاره.
■ نتیجه؟
طبق آزمایشهایی که کردن، این روش تونسته هم از نظر زیباییشناسی، هم از نظر کاربردی و هم از نظر قدرت تعمیم به انواع تصویرهای جدید، از همه روشهای معروف که قبلاً بودن بهتر باشه! یعنی نه فقط عکس رو شفافتر و رنگیتر نشون میده، بلکه اگه یه عکس زیرآبی جدید بندازی، باز هم عالی عمل میکنه و گیر نمیکنه.
■ جمعبندی خودمونی
کلاً اگه دوست داری دنیای زیر آب رو با کیفیت و رنگ بهتر ببینی یا مدلهای هوش مصنوعی بسازی که عکس رو دقیقتر آنالیز کنن، این مدل CLIP که بهش ماژول ادراکی هم وصله و با تکنیکهای آموزش مرحلهای تقویت شده، خیلی میتونه بهت کمک کنه.
پس دفعه بعد که عکس زیر آب میگیری یا میبینی، یادت باشه پشت بهتر شدنش همچین مغزهای پیچیدهای کار میکنن تا دنیا رو قشنگتر و واضحتر بهت نشون بدن!
منبع: +