دنیای جادویی Genie 3 گوگل: یه AI که هرچی بخوای برات شبیه‌سازی می‌کنه!

خب بچه‌ها یه خبر خیلی هیجان‌انگیز دارم براتون! گوگل دیپ‌مایند (DeepMind که یه شرکت پیشرفته تو حوزه هوش مصنوعیه) تازه از چیزی رونمایی کرده به اسم Genie 3 که واقعاً می‌تونم بگم از آینده اومده!

داستان اینه: Genie 3 یه مدل شبیه‌ساز یا همون world model ـه. یعنی چی؟ یعنی بهش یه متن ساده می‌دی، مثلاً “یه جنگل بارونی با رودخونه”، بعد برات تو لحظه (یعنی real-time) یه دنیای شبیه‌سازی‌شده می‌سازه که توش می‌تونی بچرخی و همه چیز رو خودت ببینی و حتی دست بزنی! 😃

حالا این فقط دکور نیست، هرچی تو دنیا هست می‌تونی باهاش تعامل کنی و حرکتش بدی. کیفیتشم 720p با ۲۴ فریم در ثانیه‌ست، یعنی تصویرش روانه و آدم احساس می‌کنه واقعاً اون‌جاست.

چی باعث می‌شه Genie 3 خاص باشه؟ اول اینکه از نسل‌های قبلی خودش (Genie 1 و 2) خیلی هوشمندتر و پیشرفته‌تره. قبلش فقط می‌تونستن یه فیلم بسازن یا فقط تصویر تولید کنن، ولی الان واقعاً دنیایی تولید می‌کنه که می‌تونی راه بری و ماجراجویی کنی. حتی شخصیت‌ها و موجودات عجیب و غریب یا لوکیشن‌های تخیلی هم می‌تونی بسازی.

اینجا یه نکته مهم هست: Genie 3 با چیزایی مثل NeRF یا Gaussian Splatting فرق داره. (اگر نمی‌دونی اینا یعنی چی: این مدل‌ها بیشتر برای ساخت تصاویر سه‌بعدی از قبل محاسبه‌شده استفاده می‌شن، یعنی اول یه مدل می‌سازن بعد نشون می‌دن، ولی Genie 3 همه‌چیزو لحظه‌ای و فریم‌به‌فریم می‌سازه. برای همینه که دنیای Genie اینقدر پویاست و می‌تونه سریع نسبت به کاربر عکس‌العمل نشون بده).

یه چیز باحال دیگه هم اینکه وقتی توی یه محیط هستی و برمی‌گردی یه جای قبلی، Genie 3 “حافظه تصویری” داره و همه‌چی سر جاش می‌مونه – البته تا حدود یک دقیقه عقب‌تر. این باعث می‌شه حس واقعی بودن و طبیعی بودن محیط حفظ بشه.

حالا ممکنه بپرسی فقط راه‌رفتن تو دنیا رو بلده؟ قطعاً نه! یه سیستم توپ اضافه داره به اسم promptable world events یعنی می‌تونی با نوشتن دستورات مختلف آب‌وهوا رو عوض کنی، چیز یا کاراکتر جدید بیاری تو دنیا یا مثلاً شب رو به روز تبدیل کنی. این یعنی هر ایده‌ای داری، فقط تایپش کن تا Genie برات خلقش کنه!

خودِ گوگل می‌گه این یه قدم اساسی به سمت هوش مصنوعی عمومی (AGI) ـه، یعنی هوش مصنوعی‌ای که می‌تونه مثل انسان تو هرزمینه‌ای یاد بگیره و تصمیم بگیره. چون این مدل‌ها باعث می‌شن عامل‌ها یا Agents (اینا همون ربات‌ها/برنامه‌هایی‌ان که می‌تونن خودشون تصمیم بگیرن) تو محیط‌هایی پر از اتفاق جدید یاد بگیرن و بدونن هرکاری بکنن چه اثری داره.

یه مشکلی که توی ساخت این مدل هست اینه که باید هر فریم با قبلی‌ها هماهنگ باشه وگرنه یه اشتباه کوچیک سریع گند می‌زنه به دنباله همه فریم‌ها. ولی Genie 3 تونسته این چالش رو تا حد خوبی حل کنه و ثبات طولانی تو صحنه‌ها داشته باشه. یعنی می‌تونی چند دقیقه پشت سر هم تو یه دنیا ماجراجویی کنی و دنیات نپاشه به هم!

البته هنوز محدودیت‌هایی هم داره: تعداد کارهایی که agent مستقیماً می‌تونه انجام بده فعلاً کمه (مثلاً بیشتر با نوشتن prompt دنیا رو عوض می‌کنی تا اینکه خود هوش مصنوعی به تنهایی کار کنه)، چندتا agent مختلف هنوز نمیتونن مثل بازیای چندنفره با هم تعامل پیچیده داشته باشن، و البته دقت کامل تو شبیه‌ سازی لوکیشن‌های واقعی دنیا هم نداره (مثلاً نمی‌تونی یه نقطه جغرافیایی رو کاملاً دقیق بسازی). بعلاوه، اگر تویه prompt نگفته باشی چه نوشته‌ای باشه، متن‌ها بعضی وقتا ناخوانا درمیاد.

اما با همه اینا، Genie 3 نشون داده داره ما رو به سمتی می‌بره که هوش مصنوعی فقط نبیند و واکنش نشون بده؛ بلکه بتونه دنیا بسازه، توش راه بره، و خودش سناریوهای جدید رو تجربه کنه. گوگل هم آینده این مسیر رو خیلی جدی گرفته و می‌خواد با این حرکت، نسل جدید agent های خودکار و خلاق رو به‌وجود بیاره.

در کل، Genie 3 واقعاً یه تحول جالب تو دنیای AI ـه. شاید تا چند وقت دیگه دیگه بازیای ویدئویی و دنیاهای مجازی همشون با همین تکنولوژی ساخته بشن!

منبع: +