ترفند جدید برای بهتر کردن مدل‌های تصویرساز: وقتی مدل رو موقع تست راهنمایی می‌کنیم!

Fall Back

سلام رفقا! امروز می‌خوام در مورد یه ایده خفن توی مدل‌های تولید تصویر از متن (یا همون Text-to-Image models) صحبت کنم. میدونید این مدل‌ها، مثل همون چیزایی که شما بهشون یه جمله میدین و واستون تصویر میسازن؟ مثلاً میگی: «گربه‌ای که عینک زده رو کنار پنجره نشون بده»، بعد یه تصویر بامزه از گربه می‌سازی! اما یه مشکل با این مدل‌ها هست – خیلی به نحوه جزئیات جمله‌ای که میدی حساسن! مثلاً اگه کوچک‌ترین تغییر توی جمله بدی، خروجی مدل جوری میشه که انگار کل دستور رو عوض کردی یا یه چیز عجیب و غریب درمیاد.

خلاصه یه گروه از محقق‌ها اومدن گفتن: «بیاید یه کار کنیم این مدل‌ها موقع تولید تصویر بهتر بفهمن چی خواستیم و تصویر دقیق‌تری بسازن.» این ایده جدید اسمش TIR هست، که مخفف Test-time prompt refinement میشه. یعنی چی؟ یعنی موقع تست کردن و استفاده از مدل (نه موقع آموزش و یادگیری)، هی بیاییم دستور یا همون prompt رو اصلاح کنیم تا مدل خروجی بهتری بده.

حالا چطوری کار میکنه؟ پرسه‌ش دور خودش می‌چرخه! بهش میگن closed-loop، یعنی سیستم خودش سعی می‌کنه ایرادها رو پیدا کنه و رفعشون کنه. اول شما یه دستور به مدل میدی، اونم یه عکس درست می‌کنه. بعد یه مدل دیگه وارد عمل میشه: اینجا از یه مدل زبون بزرگ چندرسانه‌ای استفاده می‌کنن، بهش میگن MLLM. این MLLM یه هوش مصنوعی باحاله که هم متن سرش میشه هم تصویر رو می‌فهمه – یعنی می‌تونه الان بررسی کنه ببینه چیزی که خواستین و تصویری که ساختن واقعاً بهم می‌خورن یا نه.

مثلاً فرض کن تو دستور دادی «سگ قرمز با کلاه سبز جلوی کلیسا»، ولی مدل تصویرسازی یهو سگ رو بدون کلاه ساخته. اینجاست که مدل MLLM میاد وسط و این ناهماهنگی (misalignment یعنی همون مغایرت بین خواسته و نتیجه) رو تشخیص می‌ده. بعد خودش یه بار دیگه دستور رو جوری بازنویسی می‌کنه که بهتر و جزئی‌تر باشه، به مدل تصویرساز می‌ده، دوباره عکس جدید می‌سازه. این چرخه همینجوری تکرار میشه تا بالاخره عکس خروجی واقعاً اون چیزی باشه که خواسته بودی، رو بده.

یه جورایی میشه گفت این فرآیند مثل کار یه هنرمند آدمیزاد میمونه! مثل اینکه یکی تصویر بکشه، بعد خودش یا یه نفر دیگه بیاد بگه: «اینو یه کم اینجوری کن، فلان جزئیات رو هم اضافه کن»، هی بهترش کنه، تا یه نتیجه خفن دربیاد.

حالا نکته باحال ماجرا اینجاست که برای این کار نیاز نیست مدل تصویرسازی رو دوباره آموزش بدن (train کنن). روی همون مدل‌های فعلی که داریم (که حتی به عنوان جعبه سیاه یا black-box هم شناخته میشن، یعنی ما داخلشون رو نمی‌بینیم فقط ورودی می‌‌دیم و خروجی می‌گیریم) میتونیم این ترفند رو اعمال کنیم. بهش میگن plug-and-play یعنی هرجا بخوای می‌تونی به راحتی به مدلای مختلف وصلش کنی، بدون دردسر.

طبق آزمایش‌هایی هم که محقق‌ها انجام دادن (روی چندتا دیتاست معتبر که مردم معمولاً برای تست اینجور چیزا استفاده می‌کنن)، این راهکار واقعاً باعث میشه عکس خروجی هم با اون جمله اولیه شما هماهنگ‌تر باشه و هم از نظر بصری (visual coherence یعنی تصویر یکدستی و منطقی‌تری داره) جذاب‌تر دیده بشه.

در کل اگه شما اهل کار با هوش مصنوعی (AI) یا ساختن عکس با مدل‌های متن به تصویر هستین باید بدونین با این راهکار TIR می‌تونین حسابی کیفیت و دقت کارتون رو بالاتر ببرین. هم کار باهاش راحته، هم نتایجش انصافاً بهتر دراومده. خلاصه اگر یه روزی دیدین مدل تصویرساز به حرف‌هاتون گوش نمی‌ده، این روش اصلاح دستورات موقع تست می‌تونه نجاتتون بده!

اگه سوالی داشتین یا می‌خواین بیشتر بدونین، حتماً بپرسین! 😄

منبع: +