شاید براتون جالب باشه بدونین پیشبینی اینکه مثلاً یه تیکه چوب یا بویه نجات (به اینا میگن leeway objects یعنی اشیا شناور روی سطح آب که با باد و جریان جابجا میشن) روی آب کجا میره، اصلاً کار آسونی نیست! مخصوصاً تو عملیاتهایی مثل جستوجو و نجات آدمها، دقیق بودن این پیشبینیها خیلی باارزشه چون زمان محدوده و جون آدمها تو خطره.
حالا تو این مقاله بچهها اومدن یه راهحل خیلی باحال براش پیدا کردن. خلاصهش اینکه یه سیستم هوش مصنوعی ساختن که نه فقط دادههای عددی رو میگیره، بلکه حتی توضیحات متنی درباره هر شی رو هم موقع پیشبینی استفاده میکنه! این مدلا رو بهش میگن multi-modal (مولتی مدال) چون میتونن همزمان چند مدل داده رو بخونن و هضم کنن.
اول کار، محققها اومدن یه عالمه داده جمع کردن؛ مثلاً سرعت جریان آب و باد، وزن و سطح اشیا، و کلی جزییات دیگه درباره پنج مدل شیء متفاوت. بقیه کار رو دادن دست کامپیوتر:
- اول با یه مدل شبیهسازی مبتنی بر Navier-Stokes (این یه مدل فیزیکیه برای پیشبینی حرکت مایعات و گازها)، داده شبیهسازی تولید کردن. بعد این دادههای تصویری رو دادن به یه CNN (Convolutional Neural Network، یعنی شبکه عصبی که برای خوندن تصاویر کاربرد داره) تا ضرایب drag و lift رو برای هر شی حساب کنه. این ضرایب basically به ما نشون میدن هر شی چطور تو آب مقاومت میکنه یا بالامیاد.
بعد این ضرایب با بقیه اطلاعات جمع میشه تا نیروی حرکتی نهایی اشیا رو به دست بده. خروجی این بخش یه سری داده زمانی (time series) هست که مثلاً نشون میده طی چند ثانیه آینده، هر شی قراره کجا بره.
اینجا یه حرکت خفن دیگه کردن: همزمان که دیتای عددی دادن به مدل، یه توضیح متنی درباره هر شیء هم باهاش دادن و با Sentence Transformer (یعنی مدلی که متن رو به عدد تبدیل میکنه تا کامپیوتر بفهمه) این اطلاعات متنی رو هم وارد مدل کردن. بعدش این دادهها رو دادن به مدلهای sequence-to-sequence با attention مثل LSTM و Transformer (این مدلا تو بحث زمان خیلی خوب کار میکنن و توجه یا attention یعنی مدل تمرکزشو روی بخشای مهمتر داده میذاره).
همه اینا برای این بود که بتونن دقیقتر پیشبینی کنن که اشیا تو زمانهای مختلف، مثلاً بعد ۱، ۳، ۵ یا حتی ۱۰ ثانیه قراره کجا برن. جالبیش اینه که کارشون رو با مدلهای فیزیکی کلاسیک و مدلهای یادگیری ماشین دیگه هم مقایسه کردن – مثل مدلهای Recurrent Neural Network (شبکه عصبی بازگشتی برای دادههای زمانی) و Temporal Convolutional Neural Network (مدل خاصی برای sequenceها) – و دیدن که مدل خودشون هم دقتش مشابه اوناس، ولی یه مزیت گنده داره: میتونه پیشبینیهای بلندمدتتر انجام بده، نه فقط برای لحظه بعدی!
خلاصه که بچهها نشون دادن اگر داده متنی و عددی رو با هم بدی به یه سیستم هوشمند، نتیجهش رو حرکت اشیا شناور روی آب واقعاً میتونه دقیق و سازگار با موقعیتهای مختلف باشه. این یعنی تو عملیات نجات یا حتی رویدادهای دریایی، یه ابزار خیلی باحال و کاربردی ساختن که واقعاً میتونه جونساز باشه.
راستی اگه دنبال یه تحقیق باحال و پر از تکنولوژی روز هستین، این مقاله رو از دست ندین!
منبع: +