پیش‌بینی حرکت اشیای شناور روی آب با هوش مصنوعی چندمدلی – قصه یه مقاله جذاب

Fall Back

شاید براتون جالب باشه بدونین پیش‌بینی اینکه مثلاً یه تیکه چوب یا بویه نجات (به اینا میگن leeway objects یعنی اشیا شناور روی سطح آب که با باد و جریان جابجا می‌شن) روی آب کجا میره، اصلاً کار آسونی نیست! مخصوصاً تو عملیات‌هایی مثل جست‌وجو و نجات آدم‌ها، دقیق بودن این پیش‌بینی‌ها خیلی باارزشه چون زمان محدوده و جون آدم‌ها تو خطره.

حالا تو این مقاله بچه‌ها اومدن یه راه‌حل خیلی باحال براش پیدا کردن. خلاصه‌ش اینکه یه سیستم هوش مصنوعی ساختن که نه فقط داده‌های عددی رو می‌گیره، بلکه حتی توضیحات متنی درباره هر شی رو هم موقع پیش‌بینی استفاده می‌کنه! این مدلا رو بهش می‌گن multi-modal (مولتی مدال) چون می‌تونن همزمان چند مدل داده رو بخونن و هضم کنن.

اول کار، محقق‌ها اومدن یه عالمه داده جمع کردن؛ مثلاً سرعت جریان آب و باد، وزن و سطح اشیا، و کلی جزییات دیگه درباره پنج مدل شیء متفاوت. بقیه کار رو دادن دست کامپیوتر:

  • اول با یه مدل شبیه‌سازی مبتنی بر Navier-Stokes (این یه مدل فیزیکیه برای پیش‌بینی حرکت مایعات و گازها)، داده شبیه‌سازی تولید کردن. بعد این داده‌های تصویری رو دادن به یه CNN (Convolutional Neural Network، یعنی شبکه عصبی که برای خوندن تصاویر کاربرد داره) تا ضرایب drag و lift رو برای هر شی حساب کنه. این ضرایب basically به ما نشون میدن هر شی چطور تو آب مقاومت می‌کنه یا بالامیاد.

بعد این ضرایب با بقیه اطلاعات جمع می‌شه تا نیروی حرکتی نهایی اشیا رو به دست بده. خروجی این بخش یه سری داده زمانی (time series) هست که مثلاً نشون میده طی چند ثانیه آینده، هر شی قراره کجا بره.

اینجا یه حرکت خفن دیگه کردن: همزمان که دیتای عددی دادن به مدل، یه توضیح متنی درباره هر شیء هم باهاش دادن و با Sentence Transformer (یعنی مدلی که متن رو به عدد تبدیل می‌کنه تا کامپیوتر بفهمه) این اطلاعات متنی رو هم وارد مدل کردن. بعدش این داده‌ها رو دادن به مدل‌های sequence-to-sequence با attention مثل LSTM و Transformer (این مدلا تو بحث زمان خیلی خوب کار می‌کنن و توجه یا attention یعنی مدل تمرکزشو روی بخشای مهم‌تر داده میذاره).

همه اینا برای این بود که بتونن دقیق‌تر پیش‌بینی کنن که اشیا تو زمان‌های مختلف، مثلاً بعد ۱، ۳، ۵ یا حتی ۱۰ ثانیه قراره کجا برن. جالبیش اینه که کارشون رو با مدل‌های فیزیکی کلاسیک و مدل‌های یادگیری ماشین دیگه هم مقایسه کردن – مثل مدل‌های Recurrent Neural Network (شبکه عصبی بازگشتی برای داده‌های زمانی) و Temporal Convolutional Neural Network (مدل خاصی برای sequenceها) – و دیدن که مدل خودشون هم دقتش مشابه اوناس، ولی یه مزیت گنده داره: می‌تونه پیش‌بینی‌های بلندمدت‌تر انجام بده، نه فقط برای لحظه بعدی!

خلاصه که بچه‌ها نشون دادن اگر داده متنی و عددی رو با هم بدی به یه سیستم هوشمند، نتیجه‌ش رو حرکت اشیا شناور روی آب واقعاً می‌تونه دقیق و سازگار با موقعیت‌های مختلف باشه. این یعنی تو عملیات نجات یا حتی رویدادهای دریایی، یه ابزار خیلی باحال و کاربردی ساختن که واقعاً می‌تونه جون‌ساز باشه.

راستی اگه دنبال یه تحقیق باحال و پر از تکنولوژی روز هستین، این مقاله رو از دست ندین!

منبع: +