اگه یه بار با مدلهای هوش مصنوعی که عکس میسازن (مثل DALL-E یا Stable Diffusion) کار کرده باشی، حتماً دیدی که همیشه بین چندتا چیز باید یکی رو انتخاب کنی؛ مثلا بعضی وقتا کیفیت تصویر خیلی خوبه ولی تصویر شبیه اون چیزی که خواستی نیست، یا برعکس کلی تنوع داره ولی کیفیتش پایینه. اصلاً اینجوری نیست که مدل همیشه همه چیز رو خوب انجام بده! خلاصه، همیشه یه جورایی بین ابعاد مختلف عکس باید تعادل برقرار کرد.
خب، تیمی از محققها اومدن دقیقاً سراغ همین سوال رفتهان که آقا، این مدلها چه نقطه ضعف و قوتهایی دارن و چجوری بین این ویژگیهای مختلفشون با هم تعادل برقرار میکنن؟ منظور از ویژگیها هم چیزایی مثل: واقعگرایی (یعنی عکس واقعاً طبیعی باشه)، اصالت (یعنی تکراری نباشه)، زیباییشناسی، محتوای درست، رعایت رابطهها بین اجزای تصویر، سبک و استایل خاص، دانش (یعنی بدونن چی دارن میکشن)، ابهام، سمینبودن (یعنی محتوای ناجور تولید نکردن) و بیطرف بودن (یعنی تبعیض نداشتن). خلاصه، هر چی فکر کنی جزوش هست!
این محققها برای اینکه درست و حسابی همه چی رو بسنجن، اومدن یه دیتاست خیلی بزرگ ساختن به نام «TRIG-Bench». این دیتاست یه جهان کوچیکه برای امتحان کردن مدلهای عکسساز: ۴۰,۲۰۰ نمونه تولیدی داره و برای هر عکس تو ۱۰ تا بُعد مختلف که بالا گفتم مقایسه انجام میدن. تازه، بین دوتا دوتا از این ابعاد هم همه حالتها رو چک کردن، کلاً ۱۳۲ تا ترکیب مختلف!
حالا بگو سیستم امتیازدهیشون چجوری کار میکنه؟ یه متریک جدید طراحی کردن به اسم «TRIGScore» که بر اساس VLM-as-judge کار میکنه. اینم یه توضیح ساده: VLM یعنی Visual Language Model، یه مدلی که هم متن رو میفهمه هم تصویر رو؛ اینجا کارش اینه که برای هر فاکتور جدا جدا امتیاز بده، نه اینکه همه رو بندازه تو یه سبد و آخرش یه نمره بیمعنی بده.
کل داستان اینه که اومدن با این ابزار جدید، راندمان ۱۴ تا از مدلهای مشهور تولید عکس رو تو هر دو حوزه Text-to-Image (یعنی از متن عکس تولید کردن) و Image-to-Image (یعنی تغییر روی عکسهای واقعی) بررسی کردن. انصافاً هم حسابی مو رو از ماست کشیدن بیرون!
یه کار جالب دیگه هم کردن: یه سیستمی طراحی کردن به اسم «Relation Recognition System» که یه نقشه به اسم «Dimension Trade-off Map» (مخفف: DTM) درست میکنه و نشون میده هر مدل تو کدوم ویژگیها قویتره و تو کدوم ضعیفتره؛ یا وقتی دنبال بهتر کردن یه ویژگی میری، سایر ویژگیها چه بلایی سرشون میاد. مثلاً وقتی کیفیت تصویر رو افزایش میدی، شاید از تنوع یا نوآوری کم بشه. این نقشهها دقیقاً نشون میدن بازی دکمهها چطوریه!
یکی دیگه از نکات خیلی باحال مقاله اینه که نشون دادن اگه نقطهضعف مدلها تو بعضی ابعاد رو با استفاده از همین نقشه DTM پیدا کنی و مدل رو با دیتاهای مخصوص اون بُعدها دوباره آموزش بدی (به این کار میگن Fine-tuning که یعنی مدل رو برای یه کار خاص دوباره قلقگیری کنی)، میشه راندمان کلی مدل رو حسابی بهتر کرد.
در آخر، محققها همه کدها و دیتاها رو هم گذاشتن تو گیتهاب (https://github.com/fesvhtr/TRIG) که هر کسی خواست، خودش هم مدلها رو تست کنه و ببینه کدوم مدل تو چه چیزی قویتره.
پس اگه دوست داری مدلهای هوش مصنوعی فقط عکسهای خوشگل نسازن و بتونن دقیق، خلاق و بیتبعیض هم باشن، این تحقیق دقیقاً همون چیزیه که باید دنبالش بری. واقعاً دنیای هوش مصنوعی پر از این جور معادلههای عجیب و غریبه که یه چیزی رو که بهتر میکنی، یکی دیگه شاید خراب بشه – باید بلد باشی بهجا بازی کنی!
منبع: +