دنیای واقعیت ترکیبی و حفظ حریم خصوصی: چطور میشه اشیا رو توی تصویر ناپدید کرد؟!

Fall Back

خب بیا یه تکنولوژی جالب رو با هم بررسی کنیم! موضوع بحث ما مربوط به یه رویکرده که اسمش رو گذاشتن «واقعیت کم‌شده» یا همون Diminished Reality (DR). اگه اسمش برات جدید اومده بگم که برعکس واقعیت افزوده (Augmented Reality) که چیزای جدید به دنیای واقعی اضافه می‌کنه، این یکی کارش اینه که یه سری اشیا رو از تصویر واقعی حذف می‌کنه و به جاش بک‌گراند اطراف رو می‌ذاره، طوری که انگار اون شی از اول اونجا نبوده!

حالا اصلاً چرا کسی باید چنین کاری کنه؟ دلیلش حفظ حریم خصوصی (یه توضیح ساده: اینکه چیزهایی توی دنیای واقعی‌مون هست که نمی‌خوایم بقیه ببیننشون) تو جلسه‌های واقعیت ترکیبی (MR) هست. بذار واضح‌تر بگم: فرض کن تو خونه‌ت توی یه جلسه MR شرکت کردی و نمی‌خوای مثلاً یادداشتای شخصی روی میز یا یه وسیله خاص رو بقیه شرکت‌کننده‌ها ببینن.

نویسنده‌های این تحقیق یه سیستم به اسم DR ساختن که اجازه میده کاربر اصلی با هدست خودش، انتخاب کنه چه چیزی حذف بشه. این حذف خیلی هوشمندانه انجام میشه:

  • اول با روش «تقسیم‌بندی معنایی» (Semantic Segmentation یعنی اینکه سیستم تشخیص بده هر پیکسل تصویر متعلق به چه شی یا موضوعیه) دقیقاً اون چیزی که می‌خوای رو انتخاب می‌کنی.
  • بعدش، سیستم با کمک یه فناوری جالب به اسم “Video Inpainting” یعنی همون پر کردن قسمت خالی تصویر با بک‌گراند، جاهای حذف‌شده رو طوری کامل میکنه که انگار هیچ چیزی اونجا نبوده!

یه نکته خفن دیگه اینه که این سیستم توی لحظه (real-time)، یعنی تقریباً بدون معطلی با رزولوشن 720p کار می‌کنه و به طور میانگین بالای ۲۰ فریم بر ثانیه (۲۰ fps) سرعت داره که واسه کار عملی حسابی قابل قبوله.

برای اینکه این کار انجام بشه از چندتا تکنولوژی کلیدی استفاده کردن:

  • یک دوربین عمق‌سنج ZED 2i (یه دوربین قابل حمل که می‌تونه فاصله و عمق اشیا رو تو محیط تشخیص بده)
  • YOLOv11 برای تشخیص اشیا (YOLO یه مدل هوش مصنوعی معروفه که خیلی سریع و دقیق می‌تونه اشیا رو تو تصویر شناسایی کنه)
  • یک مدل پیشرفته به اسم Decoupled Spatial-Temporal Transformer یا DSTT (یه مدل هوش مصنوعی تخصصی که تصویر یا ویدئو رو با دقت بالا ترمیم یا inpaint می‌کنه، یعنی جاهای خالی رو به‌طور طبیعی پر می‌کنه)

یکی دیگه از ویژگی‌های عالی این سیستم اینه که محدود به زاویه دوربین یا یه اسکن سه‌بعدی قبلی از محیط نیست؛ یعنی همین‌طوری می‌تونی اون رو راه بندازی و راه بیفتی، نیاز به هیچ زیرساخت خاص و پیچیده‌ای نداری.

در نهایت، هدف اصلی این تحقیق این بوده که نشون بدن حذف اشیای حساس از جلسات واقعیت ترکیبی نه فقط شدنیه، بلکه با سرعت مناسب و کیفیت بالا میشه این کار رو تو دنیای واقعی انجام داد و به این شکل یه قدم بزرگ به سمت حفظ بهتر حریم خصوصی تو فضای دیجیتالی برداشت. واقعاً تکنولوژی داره با همین سرعت، دنیای ارتباطات دیجیتال و حریم خصوصی رو متحول می‌کنه!

منبع: +