خب بچهها یه خبر خیلی هیجانانگیز دارم براتون! گوگل دیپمایند (DeepMind که یه شرکت پیشرفته تو حوزه هوش مصنوعیه) تازه از چیزی رونمایی کرده به اسم Genie 3 که واقعاً میتونم بگم از آینده اومده!
داستان اینه: Genie 3 یه مدل شبیهساز یا همون world model ـه. یعنی چی؟ یعنی بهش یه متن ساده میدی، مثلاً “یه جنگل بارونی با رودخونه”، بعد برات تو لحظه (یعنی real-time) یه دنیای شبیهسازیشده میسازه که توش میتونی بچرخی و همه چیز رو خودت ببینی و حتی دست بزنی! 😃
حالا این فقط دکور نیست، هرچی تو دنیا هست میتونی باهاش تعامل کنی و حرکتش بدی. کیفیتشم 720p با ۲۴ فریم در ثانیهست، یعنی تصویرش روانه و آدم احساس میکنه واقعاً اونجاست.
چی باعث میشه Genie 3 خاص باشه؟ اول اینکه از نسلهای قبلی خودش (Genie 1 و 2) خیلی هوشمندتر و پیشرفتهتره. قبلش فقط میتونستن یه فیلم بسازن یا فقط تصویر تولید کنن، ولی الان واقعاً دنیایی تولید میکنه که میتونی راه بری و ماجراجویی کنی. حتی شخصیتها و موجودات عجیب و غریب یا لوکیشنهای تخیلی هم میتونی بسازی.
اینجا یه نکته مهم هست: Genie 3 با چیزایی مثل NeRF یا Gaussian Splatting فرق داره. (اگر نمیدونی اینا یعنی چی: این مدلها بیشتر برای ساخت تصاویر سهبعدی از قبل محاسبهشده استفاده میشن، یعنی اول یه مدل میسازن بعد نشون میدن، ولی Genie 3 همهچیزو لحظهای و فریمبهفریم میسازه. برای همینه که دنیای Genie اینقدر پویاست و میتونه سریع نسبت به کاربر عکسالعمل نشون بده).
یه چیز باحال دیگه هم اینکه وقتی توی یه محیط هستی و برمیگردی یه جای قبلی، Genie 3 “حافظه تصویری” داره و همهچی سر جاش میمونه – البته تا حدود یک دقیقه عقبتر. این باعث میشه حس واقعی بودن و طبیعی بودن محیط حفظ بشه.
حالا ممکنه بپرسی فقط راهرفتن تو دنیا رو بلده؟ قطعاً نه! یه سیستم توپ اضافه داره به اسم promptable world events یعنی میتونی با نوشتن دستورات مختلف آبوهوا رو عوض کنی، چیز یا کاراکتر جدید بیاری تو دنیا یا مثلاً شب رو به روز تبدیل کنی. این یعنی هر ایدهای داری، فقط تایپش کن تا Genie برات خلقش کنه!
خودِ گوگل میگه این یه قدم اساسی به سمت هوش مصنوعی عمومی (AGI) ـه، یعنی هوش مصنوعیای که میتونه مثل انسان تو هرزمینهای یاد بگیره و تصمیم بگیره. چون این مدلها باعث میشن عاملها یا Agents (اینا همون رباتها/برنامههاییان که میتونن خودشون تصمیم بگیرن) تو محیطهایی پر از اتفاق جدید یاد بگیرن و بدونن هرکاری بکنن چه اثری داره.
یه مشکلی که توی ساخت این مدل هست اینه که باید هر فریم با قبلیها هماهنگ باشه وگرنه یه اشتباه کوچیک سریع گند میزنه به دنباله همه فریمها. ولی Genie 3 تونسته این چالش رو تا حد خوبی حل کنه و ثبات طولانی تو صحنهها داشته باشه. یعنی میتونی چند دقیقه پشت سر هم تو یه دنیا ماجراجویی کنی و دنیات نپاشه به هم!
البته هنوز محدودیتهایی هم داره: تعداد کارهایی که agent مستقیماً میتونه انجام بده فعلاً کمه (مثلاً بیشتر با نوشتن prompt دنیا رو عوض میکنی تا اینکه خود هوش مصنوعی به تنهایی کار کنه)، چندتا agent مختلف هنوز نمیتونن مثل بازیای چندنفره با هم تعامل پیچیده داشته باشن، و البته دقت کامل تو شبیه سازی لوکیشنهای واقعی دنیا هم نداره (مثلاً نمیتونی یه نقطه جغرافیایی رو کاملاً دقیق بسازی). بعلاوه، اگر تویه prompt نگفته باشی چه نوشتهای باشه، متنها بعضی وقتا ناخوانا درمیاد.
اما با همه اینا، Genie 3 نشون داده داره ما رو به سمتی میبره که هوش مصنوعی فقط نبیند و واکنش نشون بده؛ بلکه بتونه دنیا بسازه، توش راه بره، و خودش سناریوهای جدید رو تجربه کنه. گوگل هم آینده این مسیر رو خیلی جدی گرفته و میخواد با این حرکت، نسل جدید agent های خودکار و خلاق رو بهوجود بیاره.
در کل، Genie 3 واقعاً یه تحول جالب تو دنیای AI ـه. شاید تا چند وقت دیگه دیگه بازیای ویدئویی و دنیاهای مجازی همشون با همین تکنولوژی ساخته بشن!
منبع: +