وقتی حرف هوش مصنوعی تو ساخت تصویر میاد وسط، احتمالاً اسمهایی مثل Midjourney یا DALL-E به گوشت خورده. ولی الان یه غول دیگه هم اومده وارد بازی شده: مایکروسافت با مدل جدید خودش به اسم MAI-Image-1. بیاید ببینیم ماجرا از چه قراره!
خب، MAI-Image-1 کلاً ساخت خود مایکروسافته؛ یعنی همهچیزش رو خودشون درست کردن و صرفاً از ابزارهای OpenAI، مثل DALL-E، استفاده نکردن. تا همین چند وقت پیش مایکروسافت تقریباً همه کارهاش تو این حوزه رو با OpenAI انجام میداد، اما حالا با این مدل، داره رو پای خودش وایمیسه. (OpenAI همون شرکت معروفی هست که ChatGPT رو ساخته!)
این MAI-Image-1 چیه دقیقاً؟ مدل هوش مصنوعیه که میتونی یه جمله یا متن بهش بدی و اون برات عکس واقعی بسازه؛ به این سبک میگن text-to-image. یعنی تبدیل متن به تصویر. کلی مدل شبیه این قبلاً ساخته شده ولی مایکروسافت ادعا داره مدل خودش از نظر سرعت، واقعیبودن عکسها (یا همون فوتوریالیسم)، و انعطافپذیری خیلی جلوتره.
یه نکته باحال دیگهاش اینه که مایکروسافت حسابی وسواس به خرج داده تو انتخاب دیتایی که مدل باهاش تمرین کرده و کلی حرفهای خلاق (مثلاً عکاس و گرافیست) رو آورده تا مدل رو تست کنن و ایراداتش رو بگیرن. هدف اینه که عکسهاش مثل کلیشههای تکراری مدلهای دیگه نباشه؛ مثلاً اون تصاویر عجیبغریب یا شلختهای که گاهی تو شبکههای اجتماعی میبینیم.
جالبه بدونید MAI-Image-1 الان تو مسابقه رتبهبندی معروف LMArena (یه پلتفرم عمومی برای مقایسه مدلهای هوش مصنوعی در زمینه تصویرسازی) جزو ۱۰ تای برتره و الان فقط همون جا میشه دیدش. البته این قرار نیست زیاد طول بکشه چون مایکروسافت گفته بهزودی قراره این مدل رو تو Copilot (دستیار هوشمند جدیدش) و Bing Image Creator هم اجرا کنه.
یه توضیح کوچیک، Copilot یه جور دستیار هوشمنده که مایکروسافت داره روش کار میکنه تا تو ابزارهایی مثل Word و PowerPoint و حتی ویندوز کمکت کنه. یعنی مثلاً راحت بتونی با یه دستور، عکس مناسب برای ارائهات پیدا یا تولید کنی!
خود مایکروسافت کلی روی واقعی بودن عکسها، نورپردازی کنترلشده و تنوع بافتها مانور داده. هدف اینه که دیگه اون تصویرهای رویایی-تخیلی یا مثلا نوشته و بمببارون رنگ عجیب رو نبینی و عکسهایی گیرت بیاد که واقعاً بدرد پروژه و ارائه و تبلیغات بخوره.
اگه جزو آدمای عادی هستی که فقط میخوایبرای پاورپوینت یا یه پوستر، یه عکس خوشگل بزنی، دیگه لازم نیست حرص بخوری چرا مدل قبلی تصویر من رو خراب کرد! مایکروسافت قول داده این مدل مشکلاتش کمتره و خروجیهاش به درد بخورن. درواقع سوال اصلی این نیست که چه شرکتی مدل تصویرسازی داره، سوال اینه که کی مدل درستحسابی داره که واقعاً همه بتونن تو ابزارهای روزمره استفاده کنن؟ مایکروسافت میگه “من دارم!”
برای حرفهایهایی هم که تو کار طراحی و خلاقیت هستن، احتمالا این میتونه مسیر اومدن از ایده تا طرح نهایی رو سریعتر کنه. خلاصه برای همه جذابه!
یه نکته مهم: MAI-Image-1 همخانوادهی مدلهای MAI-1 (واسه زبان و متن) و MAI-Voice-1 (برای صدا و گفتار) هست، که اونا هم کلاً ساخت خود مایکروسافتن. پس ظاهراً داریم وارد دورهای میشیم که مایکروسافت دیگه زیاد وابسته به OpenAI نباشه و خودش همه ابزارهای هوش مصنوعیش رو بسازه.
در نهایت، پس با MAI-Image-1، مایکروسافت هم وارد «بازی تولید عکس با هوش مصنوعی» شد، اونم با حرکاتی که میگه متفاوت و بهتر از رقباست! باید ببینیم تو آینده واقعاً رقیب Midjourney و Stable Diffusion (دوتا از پرطرفدارترین مدلهای تولید تصویر با هوش مصنوعی) میشه یا نه.
اگه علاقهداری به اینجور اخبار و بررسیها، میتونی TechRadar رو تو گوگل نیوز، تیکتاک یا واتساپ دنبال کنی تا همیشه از تازهترین خبرها باخبر بمونی.
منبع: +