VIFO: مدل پیش‌بینی که همه چیز رو تصویر می‌بینه!

Fall Back

اگه به پیش‌بینی داده‌های زمان‌بندی شده یا همون سری‌های زمانی علاقه داری، احتمالاً همیشه دنبال راه‌های باحال‌تر و دقیق‌تری هستی تا بتونی روندها رو بهتر حدس بزنی. خب حالا یه مدل خفن اومده به اسم VIFO که واقعاً ایده جالبی آورده.

خب بذار اول یه چیزی رو توضیح بدم: معمولاً این مدل‌های بزرگ سری زمانی (Foundation Models) می‌رن سراغ اینکه هر کانال داده‌ رو جدا بررسی کنن، یعنی مثلاً دما و رطوبت و فشار هر کدوم برای خودشون بررسی می‌شن و این وسط ارتباط‌های ریز و مهم بین این کانال‌ها یه جورایی نادیده گرفته می‌شن. (منظور از کانال اینه که فرض کن چندتا شاخص متفاوت داری، هر کدوم یه کانالن.)

حالا تیمی که VIFO رو ساخته، اومده گفته: چرا نباید این ارتباط‌های بین کانال‌ها رو داشته باشیم؟ و مهم‌تر اینکه چرا از هوش مصنوعی بینایی یا همون LVM (Large Vision Model — یعنی مدل‌های خیلی بزرگی که برای شناسایی یا تفسیر تصویرها آموزش دیدن) استفاده نکنیم واسه سری زمانی؟

ایده‌شون واقعاً باهوشانه‌ست! VIFO میاد و داده‌های چندحوزه‌ای سری زمانی (multivariate time series یعنی مثلاً دما + رطوبت + فشار همزمان) رو تبدیل می‌کنه به تصویر! یعنی اطلاعات رو به شکلی درمیاره که مدل‌های بینایی بتونن ازش سر دربیارن. بعد این مدل بزرگ بینایی با قدرتی که داره، می‌تونه الگوها و ارتباط‌هایی رو بفهمه که مدل‌های سری زمانی معمولاً نمی‌تونن.

اینجا بحث Cross-Modal Fusion مطرح می‌شه؛ یعنی ترکیب اطلاعات از دو دنیای متفاوت: یکی از سمت داده‌های سری زمانی و یکی هم از سمت تصویر (که از روی همون داده‌ها ساخته شده). این کار باعث می‌شه ویژگی‌هایی از داده‌ها بیرون کشیده بشه که واقعاً تو کارای پیش‌بینی به درد بخورن، مخصوصاً وقتی داده‌هات پیچیده و وابسته به همن.

نکته جالب‌تر اینه که برخلاف مدل‌های دیگه که باید کل مدل رو آموزش بدن (که خیلی انرژی و قدرت کامپیوتری مصرف می‌کنه)، VIFO فقط حدود ۷.۴۵٪ پارامترهای مدل بیناییش رو آموزش می‌ده و بقیه‌ رو همون جوری یخ‌زده (فریز شده) نگه می‌داره! توضیح کوتاه: فریز کردن یعنی پارامترهای مدل رو دست نمی‌زنن.

نتیجه چی شده؟ این تیم VIFO رو روی چند تا دیتاست و تست مختلف اجرا کردن و دیدن هم بازده فوق‌العاده‌یی گرفته، هم سرعت بالا رفته و هم مدل خیلی کم‌خرج‌تر شده.

جمع‌بندی راحت:
اگه دنبال پیش‌بینی‌های دقیق‌تر در دیتاست‌های چندمتغیره و پیچیده هستی، و ترجیح می‌دی صرفه‌جویی انرژی و زمان داشته باشی، VIFO گزینه خیلی جدیه. این مدل راهو باز کرده که همه چی رو فقط مثل داده‌های ساده نبینیم، بلکه تصویرشون کنیم و از مدل‌های بینایی برای کشف الگوهای مخفی پشت داده‌ها استفاده کنیم.

خلاصه، VIFO نشون داده دور هم جمع کردن اطلاعات از دنیاهای مختلف (مودالیتی‌ها!) می‌تونه یه انقلاب جدید تو پیش‌بینی سری زمانی باشه!

منبع: +