ماجراجویی ساخت سه‌بعدی شهرها با عکس‌ها: نگاهی به روش‌های سنتی و هوش مصنوعی!

ببین، این چند سال اخیر کلی اتفاق هیجان‌انگیز توی ساخت مدل‌های سه‌بعدی شهرها فقط با عکس افتاده! منظورم همون فرآیندیه که با چندتا تصویر معمولی، می‌تونیم یه نمای سه‌بعدی از ساختمونا و محله‌ها یا حتی کل یه شهر بسازیم. حالا این داستان چرا انقدر مهم شده؟ خیلی ساده! چون شهرهای بزرگ دارن روز به روز هوشمندتر می‌شن و هرچی برنامه‌ریزی شهری دقیق‌تر باشه، کیفیت زندگی می‌ره بالا. ساخت مدل سه‌بعدی یعنی یه کپی دیجیتالی از شهر داشته باشیم که بشه باهاش نقشه‌کشی کرد، پیش‌بینی ترافیک داشت یا حتی یه دونه از همون مدل رو تو بازی‌ها و فیلم‌ها گذاشت!

تو این چند سال، مدل کردن سه‌بعدی محیط شهری با عکس (که به انگلیسی بهش Image-based 3D Reconstruction می‌گن) واقعاً متحول شده، اونم به خاطر اومدن هوش مصنوعی به سبک جدید. حالا هوش مصنوعی، یا همون Deep Learning، یعنی یه سری شبکه‌های عصبی (تقریباً شبیه مغز خودمون!) که با دیدن کلی عکس و داده، یاد می‌گیرن چه جوری دنیای واقعی رو بسازن و پیش‌بینی کنن. این باعث شده کلی روش جدید و نوآورانه ساخته بشه که قبلاً حتی فکرش هم نمی‌کردیم.

موضوع اصلی مقاله‌ای که داریم راجع بهش حرف می‌زنیم اینه که چگونه می‌شه با عکس، به خصوص برای شهرهای بزرگ، مدل سه‌بعدی ساخت. این کار دو تا هدف اصلی داره: یکی برای برنامه‌ریزی شهری پیشرفته و دوم برای ساخت شهرهای هوشمند (Smart City یعنی شهری که کلی فناوری داره و همه چیز دیجیتالی و متصل به هم کار می‌کنه)

حالا مسئله اینجاست که چه روش‌هایی هست؟ دو دسته اصلی داریم:

۱. روش‌های کلاسیک یا سنتی
این روش‌ها معمولاً مبتنی بر هندسه و ریاضی هستن. مثلاً الگوریتم‌های Structure from Motion (یا به اختصار SfM، یعنی فهم ساختار سه‌بعدی از روی حرکت و تغییر زاویه تصاویر) قبل از اومدن هوش مصنوعی خیلی معروف بودن. این روش‌ها برای ساخت مدل سه‌بعدی نمای ساختمون‌ها (Facade Reconstruction)، محله‌ها و حتی کل شهر نسبتاً خوب بودن اما محدودیت دارن و معمولاً اگه عکس‌ها بی‌کیفیت باشن یا زاویه دوربین‌ها بد باشه، دیگه نمی‌تونن کارو دربیارن.

۲. روش‌های مبتنی بر هوش مصنوعی و Deep Learning
این دسته، نسل جدید ساخت سه‌بعدی هستن! شبکه‌های عصبی عمیق میان و با دیدن هزاران یا حتی میلیون‌ها عکس، یاد می‌گیرن که چه‌جوری عکس رو به مدل سه‌بعدی تبدیل کنن؛ حتی گاهی جایی که اطلاعات کامل ندارن، با حدس و گمان هوشمندانه (با همون یادگیری عمیق) قسمت‌های گمشده رو هم بازسازی می‌کنن.

توی این مقاله اومدن هر دو دسته روش رو کامل بررسی کردن و تقریباً همشونو با هم مقایسه کردن. گفتن که هر کدوم چه ویژگی خاصی دارن، تو چه کاری قوی‌ترن، چه محدودیت‌هایی دارن و… مثلاً روش‌های کلاسیک معمولاً سرعت بالاتر و اجرای ساده‌تری دارن ولی اگه با محیطای پیچیده یا نویزدار روبرو بشن قاطی می‌کنن! از اون طرف، Deep Learning حتی با داده ناقص هم مدل قابل قبولی می‌سازه، ولی نیاز به دیتاست (یا همون مجموعه داده‌های بزرگ) داره و ممکنه آموزشش زمان‌بر باشه.

حالا درباره خود دیتاست‌ها هم توضیح دادن. مثلاً برای اینکه مدل‌های هوش مصنوعی آموزش ببینن، باید یه عالمه عکس با اطلاعات سه‌بعدی واقعی داشته باشیم؛ دیتاست‌هایی مثل KITTI یا Cityscapes خیلی کاربرد دارن. (اینها مجموعه‌ای از تصاویر شهری با انواع برچسب‌ها و اطلاعات سه‌بعدی هستن که شرکت‌ها و محقق‌ها استفاده می‌کنن تا مدل‌هایشون رو تمرین بدن.)

یه نکته دیگه هم درباره معیارهای ارزیابی این مدل‌هاست. یعنی باید ببینیم کارمون دقیق هست یا نه، چه‌قدر سریع مدل ساخته می‌شه، مدل چقدر جزئیات داره و غیره. این موارد معمولاً با چندتا شاخص مثل دقت سه‌بعدی، سرعت اجرا و حافظه مورد نیاز سنجیده می‌شن.

اما چالش‌ها؟

مقاله در نهایت گفته هنوز این حوزه کلی مشکل داره، مثلاً:
– پردازش داده‌های خیلی بزرگ برای شهرهای عظیم نیاز به حافظه و قدرت محاسباتی بالایی داره.
– جمع‌آوری دیتاست با کیفیت سخته چون باید از جاهای مختلف کلی عکس و اطلاعات سه‌بعدی دقیق و هماهنگ بگیریم.
– بعضی مدل‌ها به راحتی نمی‌تونن تفاوت نور، آب و هوا یا حالت ساختمون‌ها رو مدیریت کنن.
– و البته اینکه باید راه‌هایی پیدا کنیم که مدل‌ها سریع‌تر و کم‌مصرف‌تر هم بشن!

در نهایت هم پیشنهاد داده که تمرکز آینده باید روی ساخت دیتاست‌های بهتر، آموزش‌های بهینه‌تر و روش‌های ترکیبی (مثلاً مخلوط Deep Learning و روش کلاسیک) باشه تا مدل سه‌بعدی شهرها هر روز دقیق‌تر، سریع‌تر و کاربردی‌تر بشه.

خلاصه که این حوزه داره روز به روز جذاب‌تر و هوشمندتر می‌شه و آینده مدل‌سازی شهرها کلی اتفاق خفن در راهه! اگه دنبال تحقیق و خلاقیت تو این زمینه‌ای، الان بهترین موقعشه!
منبع: +