خب بچهها، بیاین یه موضوع خیلی جذاب رو با هم بررسی کنیم. جدیداً تو دنیای هوش مصنوعی کلی مدل شاخ دارن میسازن که بهشون میگن Foundation Models. یعنی مدلهای بزرگی که از همون اول کلی چیز یاد گرفتن و میتونن تو خیلی زمینهها استفاده بشن، مثل پردازش زبان طبیعی (NLP) و بینایی ماشین (Computer Vision).
حالا قصه دقیقا از اینجا جالب میشه که همه جور سعی و خطا کردن این مدلها رو برای کارهای مختلف استفاده کنن. مثلاً به Large Language Models یا LLMs که همون مدلهای زبانی خیلی مشهوره (مثل ChatGPT و غیره) یاد دادن که بتونن برای پیشبینی سریهای زمانی کار کنن. سری زمانی یعنی مثلاً پیشبینی آبوهوا، بورس یا هر چیزی که تو زمان مرتب اتفاق میافته.
ولی یه مشکلی این وسط وجود داره: این مدلهای زبانی فقط تو خط زمانی قویه، یعنی همه چی رو یکییکی به ترتیب نگاه میکنن (یکبعدی)، اما مشکل اینجاست که تو خب زندگی واقعی، خیلی چیزا هم به زمان و هم به مکان مربوطه، مثلاً پخش شدن آلودگی هوا یا موجهای ترافیکی. به این جور پیشبینیها میگن spatio-temporal forecasting یا پیشبینی فضایی-زمانی. یعنی باید همزمان هم رابطههای بین زمانی (کی؟) و هم فضایی (کجا؟) رو درک کنه!
تا اینجای کار حواست باشه: LLMها پایشون میلنگه واسه این پیشبینیهای پیچیده. خب یه فکر باحال زدن: چرا مدلهایی که تو کار تصویر (Vision Foundation Models یا VFMs) قوی هستن رو برای این موضوع استفاده نکنیم؟ اینا تو فهمیدن الگوهای فضایی قهرمانن، اما مشکل اینه که:
۱. بلد نیستن خودشون به طور ذاتی به بعد زمان فکر کنن.
۲. فرق دادههای تصویری و دادههای فضایی-زمانی هنوز زیاده و این دو تا با هم خیلی چفت نیست.
حالا نویسندهها اومدن یه فریمورک جدید داغ ساختن که اسمش رو گذاشتن ST-VFM (یعنی Vision Foundation Models ویژه دادههای Spatio-Temporal). این ساختار قراره مدلهای تصویری رو دوباره برنامهریزی کنه تا به درد پیشبینیهای زماندار و مکاندار بخوره. بیاین ببینیم چی کار کردن:
اولش یه چیزی ساختن به اسم dual-branch architecture، یعنی معماری دو شاخهای؛ سادهتر بگم: دو تا ورودی موازی به مدل میدن. یکی دادههای خام سری زمانی-فضایی، یکی هم دادههای جریان (flow) کمحجم که نشون میده چه تغییراتی بین دو بازه زمانی اتفاق افتاده (مثلاً حرکت یا تفاوت ساده دو تصویر). این داده جریان باعث میشه مدل متوجه تغییرات و دینامیکهای فضایی-زمانی بشه، حالا نه خیلی سنگین، واسه اینکه مدل گیج نشه.
بعد اومدن دو تا مرحله اصلی واسه «دوبارهبرنامهریزی» (reprogramming) مدل تصویری گذاشتن:
۱. pre-VFM reprogramming — قبل از اینکه دادهها وارد مدل تصویری بشن، اینا رو با یه ماژول جالب به اسم Temporal-Aware Token Adapter میفرستن. این ماژول، اطلاعات زمانی رو به نحوی به دل دادهها تزریق میکنه و باعث میشه هر دو شاخه (داده خام و جریان) برسن به یه شِکل قابلفهم برای مدل تصویری. اینجوری انگار مدل میفهمه کی داره چی اتفاق میافته.
۲. post-VFM reprogramming — وقتی دادهها اومدن بیرون مدل تصویری، یه ماژول هوشمند دیگه هست به اسم Bilateral Cross-Prompt Coordination. این ماژول باعث میشه دو شاخه بتونن شبیه یه تیم واقعی با هم کار کنن و اطلاعاتشون رو به هم منتقل کنن، اون هم روی پایه آماده مدل تصویری که Freeze شده (یعنی نیازی به تغییر کامل مدل نیست). داستان prompt-based conditioning هم اینه که، یه جور راهنمایی نوشتاری به مدل داده میشه تا بفهمه چطور دو شاخه رو با درصد مناسب قاطی کنه و تحلیل کنه.
برای اینکه نشون بدن این روش کار میکنه، رو ۱۰ تا دیتاست مختلفِ فضایی-زمانی تستش کردن و دیدن ST-VFM از همه مدلهای معروف و رقیب بهتر جواب میده. حتی روی معماریهای معروف مدل تصویری مثل DINO، CLIP و DEIT–که هرکدوم مرجع تو بینایی ماشین هستن–هم عالی جواب داده. خلاصه کلی تست و ablation study (یعنی آزمایش اینکه هر بخش مدل چقدر تاثیر داره) هم انجام دادن تا اصلاً مطمئن شن قضیه جدی و محکم جواب میده!
جمعبندی: اگه دنبال مدلی میگردی که بتونه دادههای فضایی-زمانی رو مثل آب خوردن پردازش کنه (مثلاً پیشبینی ریزش بارون در جای خاص یا پخش شدن دود تو یه منطقه با گذشت زمان)، این ST-VFM یکی از بهترین گزینههاست که میتونه تجربیات یادگیری مدلهای تصویری رو با هوشمندی و بدون دستکاری هسته اصلی، تبدیل کنه به یک ابزار همهفنحریف برای این کار!
منبع: +