بالاخره مدل‌های هوش مصنوعی عکس‌ساز چی رو بهتر می‌کنن؟ کیفیت یا تنوع؟ یه نگاهی به معادله‌های پیچیده‌شون!

اگه یه بار با مدل‌های هوش مصنوعی که عکس می‌سازن (مثل DALL-E یا Stable Diffusion) کار کرده باشی، حتماً دیدی که همیشه بین چندتا چیز باید یکی رو انتخاب کنی؛ مثلا بعضی وقتا کیفیت تصویر خیلی خوبه ولی تصویر شبیه اون چیزی که خواستی نیست، یا برعکس کلی تنوع داره ولی کیفیتش پایینه. اصلاً اینجوری نیست که مدل همیشه همه چیز رو خوب انجام بده! خلاصه، همیشه یه جورایی بین ابعاد مختلف عکس باید تعادل برقرار کرد.

خب، تیمی از محقق‌ها اومدن دقیقاً سراغ همین سوال رفته‌ان که آقا، این مدل‌ها چه نقطه ضعف و قوت‌هایی دارن و چجوری بین این ویژگی‌های مختلفشون با هم تعادل برقرار می‌کنن؟ منظور از ویژگی‌ها هم چیزایی مثل: واقع‌گرایی (یعنی عکس واقعاً طبیعی باشه)، اصالت (یعنی تکراری نباشه)، زیبایی‌شناسی، محتوای درست، رعایت رابطه‌ها بین اجزای تصویر، سبک و استایل خاص، دانش (یعنی بدونن چی دارن می‌کشن)، ابهام، سمی‌نبودن (یعنی محتوای ناجور تولید نکردن) و بی‌طرف بودن (یعنی تبعیض نداشتن). خلاصه، هر چی فکر کنی جزوش هست!

این محقق‌ها برای اینکه درست و حسابی همه چی رو بسنجن، اومدن یه دیتاست خیلی بزرگ ساختن به نام «TRIG-Bench». این دیتاست یه جهان کوچیکه برای امتحان کردن مدل‌های عکس‌ساز: ۴۰,۲۰۰ نمونه تولیدی داره و برای هر عکس تو ۱۰ تا بُعد مختلف که بالا گفتم مقایسه انجام می‌دن. تازه، بین دوتا دوتا از این ابعاد هم همه حالت‌ها رو چک کردن، کلاً ۱۳۲ تا ترکیب مختلف!

حالا بگو سیستم امتیازدهی‌شون چجوری کار می‌کنه؟ یه متریک جدید طراحی کردن به اسم «TRIGScore» که بر اساس VLM-as-judge کار می‌کنه. اینم یه توضیح ساده: VLM یعنی Visual Language Model، یه مدلی که هم متن رو می‌فهمه هم تصویر رو؛ اینجا کارش اینه که برای هر فاکتور جدا جدا امتیاز بده، نه اینکه همه رو بندازه تو یه سبد و آخرش یه نمره بی‌معنی بده.

کل داستان اینه که اومدن با این ابزار جدید، راندمان ۱۴ تا از مدل‌های مشهور تولید عکس رو تو هر دو حوزه Text-to-Image (یعنی از متن عکس تولید کردن) و Image-to-Image (یعنی تغییر روی عکس‌های واقعی) بررسی کردن. انصافاً هم حسابی مو رو از ماست کشیدن بیرون!

یه کار جالب دیگه هم کردن: یه سیستمی طراحی کردن به اسم «Relation Recognition System» که یه نقشه به اسم «Dimension Trade-off Map» (مخفف: DTM) درست می‌کنه و نشون می‌ده هر مدل تو کدوم ویژگی‌ها قوی‌تره و تو کدوم ضعیف‌تره؛ یا وقتی دنبال بهتر کردن یه ویژگی میری، سایر ویژگی‌ها چه بلایی سرشون میاد. مثلاً وقتی کیفیت تصویر رو افزایش می‌دی، شاید از تنوع یا نوآوری کم بشه. این نقشه‌ها دقیقاً نشون می‌دن بازی دکمه‌ها چطوریه!

یکی دیگه از نکات خیلی باحال مقاله اینه که نشون دادن اگه نقطه‌ضعف مدل‌ها تو بعضی ابعاد رو با استفاده از همین نقشه DTM پیدا کنی و مدل رو با دیتاهای مخصوص اون بُعدها دوباره آموزش بدی (به این کار می‌گن Fine-tuning که یعنی مدل رو برای یه کار خاص دوباره قلق‌گیری کنی)، میشه راندمان کلی مدل رو حسابی بهتر کرد.

در آخر، محقق‌ها همه کدها و دیتاها رو هم گذاشتن تو گیت‌هاب (https://github.com/fesvhtr/TRIG) که هر کسی خواست، خودش هم مدل‌ها رو تست کنه و ببینه کدوم مدل تو چه چیزی قوی‌تره.

پس اگه دوست داری مدل‌های هوش مصنوعی فقط عکس‌های خوشگل نسازن و بتونن دقیق، خلاق و بی‌تبعیض هم باشن، این تحقیق دقیقاً همون چیزیه که باید دنبالش بری. واقعاً دنیای هوش مصنوعی پر از این جور معادله‌های عجیب و غریبه که یه چیزی رو که بهتر می‌کنی، یکی دیگه شاید خراب بشه – باید بلد باشی به‌جا بازی کنی!

منبع: +