مایکروسافت با MAI-Image-1 وارد بازی هوش مصنوعی تصویرسازی شد!

وقتی حرف هوش مصنوعی تو ساخت تصویر میاد وسط، احتمالاً اسم‌هایی مثل Midjourney یا DALL-E به گوشت خورده. ولی الان یه غول دیگه هم اومده وارد بازی شده: مایکروسافت با مدل جدید خودش به اسم MAI-Image-1. بیاید ببینیم ماجرا از چه قراره!

خب، MAI-Image-1 کلاً ساخت خود مایکروسافته؛ یعنی همه‌چیزش رو خودشون درست کردن و صرفاً از ابزارهای OpenAI، مثل DALL-E، استفاده نکردن. تا همین چند وقت پیش مایکروسافت تقریباً همه کارهاش تو این حوزه رو با OpenAI انجام می‌داد، اما حالا با این مدل، داره رو پای خودش وایمیسه. (OpenAI همون شرکت معروفی هست که ChatGPT رو ساخته!)

این MAI-Image-1 چیه دقیقاً؟ مدل هوش مصنوعیه که می‌تونی یه جمله یا متن بهش بدی و اون برات عکس واقعی بسازه؛ به این سبک میگن text-to-image. یعنی تبدیل متن به تصویر. کلی مدل شبیه این قبلاً ساخته شده ولی مایکروسافت ادعا داره مدل خودش از نظر سرعت، واقعی‌بودن عکس‌ها (یا همون فوتوریالیسم)، و انعطاف‌پذیری خیلی جلوتره.

یه نکته باحال دیگه‌اش اینه که مایکروسافت حسابی وسواس به خرج داده تو انتخاب دیتایی که مدل باهاش تمرین کرده و کلی حرفه‌ای خلاق (مثلاً عکاس و گرافیست) رو آورده تا مدل رو تست کنن و ایراداتش رو بگیرن. هدف اینه که عکس‌هاش مثل کلیشه‌های تکراری مدل‌های دیگه نباشه؛ مثلاً اون تصاویر عجیب‌غریب یا شلخته‌ای که گاهی تو شبکه‌های اجتماعی می‌بینیم.

جالبه بدونید MAI-Image-1 الان تو مسابقه رتبه‌بندی معروف LMArena (یه پلتفرم عمومی برای مقایسه مدل‌های هوش مصنوعی در زمینه تصویرسازی) جزو ۱۰ تای برتره و الان فقط همون جا میشه دیدش. البته این قرار نیست زیاد طول بکشه چون مایکروسافت گفته به‌زودی قراره این مدل رو تو Copilot (دستیار هوشمند جدیدش) و Bing Image Creator هم اجرا کنه.

یه توضیح کوچیک، Copilot یه جور دستیار هوشمنده که مایکروسافت داره روش کار می‌کنه تا تو ابزارهایی مثل Word و PowerPoint و حتی ویندوز کمکت کنه. یعنی مثلاً راحت بتونی با یه دستور، عکس مناسب برای ارائه‌ات پیدا یا تولید کنی!

خود مایکروسافت کلی روی واقعی بودن عکس‌ها، نورپردازی کنترل‌شده و تنوع بافت‌ها مانور داده. هدف اینه که دیگه اون تصویرهای رویایی-تخیلی یا مثلا نوشته و بمب‌بارون رنگ عجیب رو نبینی و عکس‌هایی گیرت بیاد که واقعاً بدرد پروژه و ارائه و تبلیغات بخوره.

اگه جزو آدمای عادی هستی که فقط می‌خوایبرای پاورپوینت یا یه پوستر، یه عکس خوشگل بزنی، دیگه لازم نیست حرص بخوری چرا مدل قبلی تصویر من رو خراب کرد! مایکروسافت قول داده این مدل مشکلاتش کمتره و خروجی‌هاش به درد بخورن. درواقع سوال اصلی این نیست که چه شرکتی مدل تصویرسازی داره، سوال اینه که کی مدل درست‌حسابی داره که واقعاً همه بتونن تو ابزارهای روزمره استفاده کنن؟ مایکروسافت میگه “من دارم!”

برای حرفه‌ای‌هایی هم که تو کار طراحی و خلاقیت هستن، احتمالا این می‌تونه مسیر اومدن از ایده تا طرح نهایی رو سریع‌تر کنه. خلاصه برای همه جذابه!

یه نکته مهم: MAI-Image-1 هم‌خانواده‌ی مدل‌های MAI-1 (واسه زبان و متن) و MAI-Voice-1 (برای صدا و گفتار) هست، که اونا هم کلاً ساخت خود مایکروسافتن. پس ظاهراً داریم وارد دوره‌ای می‌شیم که مایکروسافت دیگه زیاد وابسته به OpenAI نباشه و خودش همه ابزارهای هوش مصنوعیش رو بسازه.

در نهایت، پس با MAI-Image-1، مایکروسافت هم وارد «بازی تولید عکس با هوش مصنوعی» شد، اونم با حرکاتی که میگه متفاوت و بهتر از رقباست! باید ببینیم تو آینده واقعاً رقیب Midjourney و Stable Diffusion (دوتا از پرطرفدارترین مدل‌های تولید تصویر با هوش مصنوعی) میشه یا نه.

اگه علاقه‌داری به اینجور اخبار و بررسی‌ها، می‌تونی TechRadar رو تو گوگل نیوز، تیک‌تاک یا واتساپ دنبال کنی تا همیشه از تازه‌ترین خبرها باخبر بمونی.

منبع: +