خب رفقا، امروز میخوام یه موضوع جالب رو براتون توضیح بدم درباره انتقال ظاهر (Appearance Transfer) به روش «زیرو شات» (Zero-Shot). حالا یه توضیح کوچیک: انتقال ظاهر یعنی اینکه مثلا شما یه عکس داری و میخوای ظاهر یا سبک یه عکس دیگه رو به اون منتقل کنی، بدون اینکه مدل قبلاً علناً این دو عکس رو دیده باشه! زیرو شات هم یعنی بدون آموزش قبلی روی نمونههای خاص، مدل باید بتونه بین دو چیز ارتباط بگیره.
حالا مشکل اصلی که بچهها توی این مقاله بهش اشاره کردن اسمش هست «Attention Leakage». به زبون ساده یعنی حواس مدل اونجوری که باید روی معانی عکسها متمرکز نمیمونه و اطلاعات بین قسمتهای مختلف لو میره (یعنی مدل بهجای اینکه واقعاً بفهمه بین جزئیات دوتا عکس باید چه ارتباطی باشه، بعضی وقتا گیج میشه و اطلاعات رو قاطی هم درمیاره). توی مدلهای امروزی که برای تولید عکس و جابهجایی ظاهر به کار میرن، این مشکل باعث میشه نتیجهها خیلی هماهنگ و طبیعی نباشه.
اینجاست که Q-Align وارد میشه! تیم سازنده Q-Align سه تا ویژگی خفن رو معرفی کردن:
-
تطبیق Query-Query: خب Query یعنی درخواست یا همون بخشی که مدل ازش کمک میگیره تا یک نقطه خاص از عکس رو بررسی کنه. اگه قبل از این، مدلها بیشتر روی همترازی Query-Key حساب میکردن (یعنی تطبیق کردن قسمتهای مربوط توی عکس مقصد با عکس مرجع)، Q-Align میاد و بین خود Queryها (یعنی نقاط جستجو توی هر دوتا عکس) ارتباط سمیتر و باهوشتری میزنه. اینجوری مدل بهتر میفهمه کدوم بخش کدومه و اشتباه کمتری پیش میاد.
-
دوباره چیدمان Key-Valueها: Key و Value توی مدلهای توجهی (Attention Models، یعنی مدلهایی که سعی میکنن حواسشون رو به قسمتهای مهم عکس جلب کنن) به ترتیب اطلاعات نشونهها و مقادیر واقعی اون بخش رو دارن. توی Q-Align، اینها رو بهتر میچینه و تنظیم میکنه که ارتباط واقعیتر بین قسمتهای عکسها برقرار بمونه.
-
اصلاح توجه (Attention Refinement): بعد از اینکه اون Key و Valueهای جدید رو چید، مدل یک بار دیگه توجه رو اصلاح میکنه تا مطمئن باشه که معنی و ظاهر به درستی منتقل میشن و چیزی از قلم نمیفته.
برای اطمینان از کارایی Q-Align، کلی تست و آزمایش هم گرفتن (آزمایشهای زیاد و تحلیل عمیق انجام دادن)، و نتیجهها نشون داده که Q-Align نه تنها ظاهر رو بهتر و طبیعیتر حفظ میکنه، بلکه ساختار کلی عکس هم خراب نمیشه. اگه مدلهای قبلی معمولاً کمی توی طبیعی بودن یا همون Fidelity کم میاوردن یا ساختار عکس رو به هم میزدن، Q-Align تو هر دو زمینه عالی عمل کرده.
در کل، اگه دوست داری مدلهای هوش مصنوعی عکس بسازی که بدون مثال قبلی و به اصطلاح Zero-Shot، بتونن ظاهر یه عکس رو به اون یکی منتقل کنن و توی این مسیر هم گم و گور نشن، Q-Align میتونه کلی کمک کنه! خلاصه این مقاله کلی تکنیک خفن برای کنترل و هوشمند کردن Attention و جلوگیری از Attention Leakage ارائه میده، که اگه اهل مدلهای تصویرسازی و هوش مصنوعی باشی، ارزش خوندن داره!
منبع: +