بازسازی آواتار سه‌بعدی انسان با 3D Gaussian Splatting: همه‌چی درباره یه تکنولوژی باحال!

بیا یه کم درباره یه تکنولوژی خیلی باحال تو حوزه واقعیت مجازی و ساخت ویدیوها و محتواهای دیجیتال حرف بزنیم: بازسازی آدم‌ها به شکل آواتار سه‌بعدی که هم خیلی طبیعی هستن و هم می‌تونن حرکت کنن! این قضیه واقعاً دنیای ما رو عوض می‌کنه، مخصوصاً واسه کسایی که عاشق VR یا ساخت انیمیشن و بازی و اینام.

تا همین چند وقت پیش، مدل‌هایی که می‌خواستن این کار رو انجام بدن، دچار دردسرهایی مثل محاسبات سنگین، سرعت پایین و از همه بدتر، نتیجه‌ای نه چندان خوشگل بودن. یعنی اگه می‌خواستی یه آدم رو شسته‌رفته به سه‌بعدی تبدیل کنی، باید کلی صبر می‌کردی و آخرشم شاید تصویرش باگ داشت.

ولی حالا یه رویکرد جدید اومده به اسم 3D Gaussian Splatting یا به اختصار 3DGS که خیلی چیزارو عوض کرده! تازه بخوام یه توضیح ساده بدم: تو این روش به‌جای مدلینگ سنتی، میان کلی نقطه سه‌بعدی درست می‌کنن که هرکدوم‌شون یه جور حالت پخش شدن دارن (یعنی اطلاعات رو توی فضا پخش می‌کنن، شبیه ابری از نقطه‌ها). اینکار باعث میشه هم آموزش سیستم (آموزش یعنی همون Training که مدل می‌فهمه چطور سه‌بعدی‌سازی کنه) خیلی سریعتر بشه، هم موقع اجرا کردن مدل، سرعت رندر شدنش باور نکردنی باشه؛ حتی تا ۳۶۱ فریم بر ثانیه! (فریم بر ثانیه یعنی چقدر سریع تصاویر ساخته میشن، و اینجا یعنی فوق‌العاده سریع!)

حالا بیام ببینیم این سیستم چطور کار می‌کنه: اول یه مدل پایه (که بهش پارامتریک مدل میگن – یعنی یه مدل ریاضی که می‌تونی با عدد و رقم تغییرش بدی تا شبیه هر آدمی بشه) درست می‌کنن، بعد با یه سری تکنیک یادگیری هوش مصنوعی، همین نقطه‌های سه‌بعدی رو واسه هر ژست و حرکتی که بخوای تغییر میدن (به این کار میگن deformation و skinning؛ مثلاً skinning یعنی تعیین این که هر نقطه چطوری با حرکات بدن همراه بشه).

علاوه بر این، واسه اینکه سیستم قوی‌تر کار کنه، چندتا ایده جذاب گذاشتن روش:

  • مکانیسم‌هایی برای تغییر شکل دادن مدل که باعث میشه با حرکات مختلف بدن، مدل عجیب و غریب نشه و ژست‌های متفاوت رو درست نمایش بده. (به این میگن motion generalization)
  • ترکیب نقطه‌های سه‌بعدی با مدل سه‌بعدی مش‌دار کلاسیک برای لباس‌ها یا جاهایی که هندسه‌شون پیچیده‌س. (مش: همون ساختار مثل توری که مدل‌های سه‌بعدی دارن.)
  • فشرده‌سازی و بهینه‌سازی مدل تا هم حجمش کمتر بشه، هم سرعتش بیشتر بشه.
  • ماژول‌های تخصصی برای جاهایی که بخشی از بدن دیده نمیشه یا خیلی جزئیات ریز لازمه؛ مثل اینکه یه دست پشت بدن قایمه یا چین و چروک لباس‌ها رو بخوای نشون بدی. (Occlusion یعنی جایی که بخشی از بدن پشت یه چیزیه، اینجا هم سیستم برای این قضیه راه‌حل‌هایی گذاشته)

در کل، این مقاله میاد یه مروری میکنه روی پیشرفت‌هایی که تو این زمینه 3DGS واسه بازسازی انسان‌ها اتفاق افتاده. مقالات رو بر اساس ورودی‌هایی که استفاده می‌کنن تقسیم‌بندی میکنه: بعضیا با یه عکس کار می‌کنن (Single-view reconstruction، یعنی از یه زاویه)، بعضیا هم با چندتا عکس مختلف از زوایای متفاوت (Multi-view reconstruction) سر و کار دارن. بعد هر دسته رو بررسی میکنه، مزایا و معایب هر کدوم رو میگه.

در نهایت، یه سری مسیرهای آینده‌دار هم معرفی میشه که مثلا چه کارایی میشه برای بهتر شدن این تکنولوژی انجام داد (مثلاً دقت بیشتر، پردازش سریعتر، سازگاری با لباس‌ها و …). خلاصه، اگه دنبال آواتار سه‌بعدی واقعی و باحال واسه VR و این جور چیزا می‌گردی، 3D Gaussian Splatting شده یکی از گزینه‌های خیلی داغ این روزها!

منبع: +