چطوری مدل‌های تصویری رو برای پیش‌بینی‌های فضایی-زمانی دستکاری کنیم؟!

خب بچه‌ها، بیاین یه موضوع خیلی جذاب رو با هم بررسی کنیم. جدیداً تو دنیای هوش مصنوعی کلی مدل شاخ دارن می‌سازن که بهشون میگن Foundation Models. یعنی مدل‌های بزرگی که از همون اول کلی چیز یاد گرفتن و می‌تونن تو خیلی زمینه‌ها استفاده بشن، مثل پردازش زبان طبیعی (NLP) و بینایی ماشین (Computer Vision).

حالا قصه دقیقا از اینجا جالب میشه که همه جور سعی و خطا کردن این مدل‌ها رو برای کارهای مختلف استفاده کنن. مثلاً به Large Language Models یا LLMs که همون مدل‌های زبانی خیلی مشهوره (مثل ChatGPT و غیره) یاد دادن که بتونن برای پیش‌بینی سری‌های زمانی کار کنن. سری زمانی یعنی مثلاً پیش‌بینی آب‌وهوا، بورس یا هر چیزی که تو زمان مرتب اتفاق می‌افته.

ولی یه مشکلی این وسط وجود داره: این مدل‌های زبانی فقط تو خط زمانی قویه، یعنی همه چی رو یکی‌یکی به ترتیب نگاه می‌کنن (یک‌بعدی)، اما مشکل اینجاست که تو خب زندگی واقعی، خیلی چیزا هم به زمان و هم به مکان مربوطه، مثلاً پخش شدن آلودگی هوا یا موج‌های ترافیکی. به این جور پیش‌بینی‌ها میگن spatio-temporal forecasting یا پیش‌بینی فضایی-زمانی. یعنی باید همزمان هم رابطه‌های بین زمانی (کی؟) و هم فضایی (کجا؟) رو درک کنه!

تا اینجای کار حواست باشه: LLMها پایشون می‌لنگه واسه این پیش‌بینی‌های پیچیده. خب یه فکر باحال زدن: چرا مدل‌هایی که تو کار تصویر (Vision Foundation Models یا VFMs) قوی هستن رو برای این موضوع استفاده نکنیم؟ اینا تو فهمیدن الگوهای فضایی قهرمانن، اما مشکل اینه که:

۱. بلد نیستن خودشون به طور ذاتی به بعد زمان فکر کنن.
۲. فرق داده‌های تصویری و داده‌های فضایی-زمانی هنوز زیاده و این دو تا با هم خیلی چفت نیست.

حالا نویسنده‌ها اومدن یه فریم‌ورک جدید داغ ساختن که اسمش رو گذاشتن ST-VFM (یعنی Vision Foundation Models ویژه داده‌های Spatio-Temporal). این ساختار قراره مدل‌های تصویری رو دوباره برنامه‌ریزی کنه تا به درد پیش‌بینی‌های زمان‌دار و مکان‌دار بخوره. بیاین ببینیم چی کار کردن:

اولش یه چیزی ساختن به اسم dual-branch architecture، یعنی معماری دو شاخه‌ای؛ ساده‌تر بگم: دو تا ورودی موازی به مدل می‌دن. یکی داده‌های خام سری زمانی-فضایی، یکی هم داده‌های جریان (flow) کم‌حجم که نشون میده چه تغییراتی بین دو بازه زمانی اتفاق افتاده (مثلاً حرکت یا تفاوت ساده دو تصویر). این داده جریان باعث میشه مدل متوجه تغییرات و دینامیک‌های فضایی-زمانی بشه، حالا نه خیلی سنگین، واسه اینکه مدل گیج نشه.

بعد اومدن دو تا مرحله اصلی واسه «دوباره‌برنامه‌ریزی» (reprogramming) مدل تصویری گذاشتن:

۱. pre-VFM reprogramming — قبل از اینکه داده‌ها وارد مدل تصویری بشن، اینا رو با یه ماژول جالب به اسم Temporal-Aware Token Adapter می‌فرستن. این ماژول، اطلاعات زمانی رو به نحوی به دل داده‌ها تزریق می‌کنه و باعث میشه هر دو شاخه (داده خام و جریان) برسن به یه شِکل قابل‌فهم برای مدل تصویری. اینجوری انگار مدل می‌فهمه کی داره چی اتفاق می‌افته.

۲. post-VFM reprogramming — وقتی داده‌ها اومدن بیرون مدل تصویری، یه ماژول هوشمند دیگه هست به اسم Bilateral Cross-Prompt Coordination. این ماژول باعث میشه دو شاخه بتونن شبیه یه تیم واقعی با هم کار کنن و اطلاعاتشون رو به هم منتقل کنن، اون هم روی پایه آماده مدل تصویری که Freeze شده (یعنی نیازی به تغییر کامل مدل نیست). داستان prompt-based conditioning هم اینه که، یه جور راهنمایی نوشتاری به مدل داده میشه تا بفهمه چطور دو شاخه رو با درصد مناسب قاطی کنه و تحلیل کنه.

برای اینکه نشون بدن این روش کار می‌کنه، رو ۱۰ تا دیتاست مختلفِ فضایی-زمانی تستش کردن و دیدن ST-VFM از همه مدل‌های معروف و رقیب بهتر جواب میده. حتی روی معماری‌های معروف مدل تصویری مثل DINO، CLIP و DEIT–که هرکدوم مرجع تو بینایی ماشین هستن–هم عالی جواب داده. خلاصه کلی تست و ablation study (یعنی آزمایش اینکه هر بخش مدل چقدر تاثیر داره) هم انجام دادن تا اصلاً مطمئن شن قضیه جدی و محکم جواب میده!

جمع‌بندی: اگه دنبال مدلی می‌گردی که بتونه داده‌های فضایی-زمانی رو مثل آب خوردن پردازش کنه (مثلاً پیش‌بینی ریزش بارون در جای خاص یا پخش‌ شدن دود تو یه منطقه با گذشت زمان)، این ST-VFM یکی از بهترین گزینه‌هاست که میتونه تجربیات یادگیری مدل‌های تصویری رو با هوشمندی و بدون دستکاری هسته اصلی، تبدیل کنه به یک ابزار همه‌فن‌حریف برای این کار!

منبع: +