بیا یه کم درباره یه تکنولوژی خیلی باحال تو حوزه واقعیت مجازی و ساخت ویدیوها و محتواهای دیجیتال حرف بزنیم: بازسازی آدمها به شکل آواتار سهبعدی که هم خیلی طبیعی هستن و هم میتونن حرکت کنن! این قضیه واقعاً دنیای ما رو عوض میکنه، مخصوصاً واسه کسایی که عاشق VR یا ساخت انیمیشن و بازی و اینام.
تا همین چند وقت پیش، مدلهایی که میخواستن این کار رو انجام بدن، دچار دردسرهایی مثل محاسبات سنگین، سرعت پایین و از همه بدتر، نتیجهای نه چندان خوشگل بودن. یعنی اگه میخواستی یه آدم رو شستهرفته به سهبعدی تبدیل کنی، باید کلی صبر میکردی و آخرشم شاید تصویرش باگ داشت.
ولی حالا یه رویکرد جدید اومده به اسم 3D Gaussian Splatting یا به اختصار 3DGS که خیلی چیزارو عوض کرده! تازه بخوام یه توضیح ساده بدم: تو این روش بهجای مدلینگ سنتی، میان کلی نقطه سهبعدی درست میکنن که هرکدومشون یه جور حالت پخش شدن دارن (یعنی اطلاعات رو توی فضا پخش میکنن، شبیه ابری از نقطهها). اینکار باعث میشه هم آموزش سیستم (آموزش یعنی همون Training که مدل میفهمه چطور سهبعدیسازی کنه) خیلی سریعتر بشه، هم موقع اجرا کردن مدل، سرعت رندر شدنش باور نکردنی باشه؛ حتی تا ۳۶۱ فریم بر ثانیه! (فریم بر ثانیه یعنی چقدر سریع تصاویر ساخته میشن، و اینجا یعنی فوقالعاده سریع!)
حالا بیام ببینیم این سیستم چطور کار میکنه: اول یه مدل پایه (که بهش پارامتریک مدل میگن – یعنی یه مدل ریاضی که میتونی با عدد و رقم تغییرش بدی تا شبیه هر آدمی بشه) درست میکنن، بعد با یه سری تکنیک یادگیری هوش مصنوعی، همین نقطههای سهبعدی رو واسه هر ژست و حرکتی که بخوای تغییر میدن (به این کار میگن deformation و skinning؛ مثلاً skinning یعنی تعیین این که هر نقطه چطوری با حرکات بدن همراه بشه).
علاوه بر این، واسه اینکه سیستم قویتر کار کنه، چندتا ایده جذاب گذاشتن روش:
- مکانیسمهایی برای تغییر شکل دادن مدل که باعث میشه با حرکات مختلف بدن، مدل عجیب و غریب نشه و ژستهای متفاوت رو درست نمایش بده. (به این میگن motion generalization)
- ترکیب نقطههای سهبعدی با مدل سهبعدی مشدار کلاسیک برای لباسها یا جاهایی که هندسهشون پیچیدهس. (مش: همون ساختار مثل توری که مدلهای سهبعدی دارن.)
- فشردهسازی و بهینهسازی مدل تا هم حجمش کمتر بشه، هم سرعتش بیشتر بشه.
- ماژولهای تخصصی برای جاهایی که بخشی از بدن دیده نمیشه یا خیلی جزئیات ریز لازمه؛ مثل اینکه یه دست پشت بدن قایمه یا چین و چروک لباسها رو بخوای نشون بدی. (Occlusion یعنی جایی که بخشی از بدن پشت یه چیزیه، اینجا هم سیستم برای این قضیه راهحلهایی گذاشته)
در کل، این مقاله میاد یه مروری میکنه روی پیشرفتهایی که تو این زمینه 3DGS واسه بازسازی انسانها اتفاق افتاده. مقالات رو بر اساس ورودیهایی که استفاده میکنن تقسیمبندی میکنه: بعضیا با یه عکس کار میکنن (Single-view reconstruction، یعنی از یه زاویه)، بعضیا هم با چندتا عکس مختلف از زوایای متفاوت (Multi-view reconstruction) سر و کار دارن. بعد هر دسته رو بررسی میکنه، مزایا و معایب هر کدوم رو میگه.
در نهایت، یه سری مسیرهای آیندهدار هم معرفی میشه که مثلا چه کارایی میشه برای بهتر شدن این تکنولوژی انجام داد (مثلاً دقت بیشتر، پردازش سریعتر، سازگاری با لباسها و …). خلاصه، اگه دنبال آواتار سهبعدی واقعی و باحال واسه VR و این جور چیزا میگردی، 3D Gaussian Splatting شده یکی از گزینههای خیلی داغ این روزها!
منبع: +