اگه به پیشبینی دادههای زمانبندی شده یا همون سریهای زمانی علاقه داری، احتمالاً همیشه دنبال راههای باحالتر و دقیقتری هستی تا بتونی روندها رو بهتر حدس بزنی. خب حالا یه مدل خفن اومده به اسم VIFO که واقعاً ایده جالبی آورده.
خب بذار اول یه چیزی رو توضیح بدم: معمولاً این مدلهای بزرگ سری زمانی (Foundation Models) میرن سراغ اینکه هر کانال داده رو جدا بررسی کنن، یعنی مثلاً دما و رطوبت و فشار هر کدوم برای خودشون بررسی میشن و این وسط ارتباطهای ریز و مهم بین این کانالها یه جورایی نادیده گرفته میشن. (منظور از کانال اینه که فرض کن چندتا شاخص متفاوت داری، هر کدوم یه کانالن.)
حالا تیمی که VIFO رو ساخته، اومده گفته: چرا نباید این ارتباطهای بین کانالها رو داشته باشیم؟ و مهمتر اینکه چرا از هوش مصنوعی بینایی یا همون LVM (Large Vision Model — یعنی مدلهای خیلی بزرگی که برای شناسایی یا تفسیر تصویرها آموزش دیدن) استفاده نکنیم واسه سری زمانی؟
ایدهشون واقعاً باهوشانهست! VIFO میاد و دادههای چندحوزهای سری زمانی (multivariate time series یعنی مثلاً دما + رطوبت + فشار همزمان) رو تبدیل میکنه به تصویر! یعنی اطلاعات رو به شکلی درمیاره که مدلهای بینایی بتونن ازش سر دربیارن. بعد این مدل بزرگ بینایی با قدرتی که داره، میتونه الگوها و ارتباطهایی رو بفهمه که مدلهای سری زمانی معمولاً نمیتونن.
اینجا بحث Cross-Modal Fusion مطرح میشه؛ یعنی ترکیب اطلاعات از دو دنیای متفاوت: یکی از سمت دادههای سری زمانی و یکی هم از سمت تصویر (که از روی همون دادهها ساخته شده). این کار باعث میشه ویژگیهایی از دادهها بیرون کشیده بشه که واقعاً تو کارای پیشبینی به درد بخورن، مخصوصاً وقتی دادههات پیچیده و وابسته به همن.
نکته جالبتر اینه که برخلاف مدلهای دیگه که باید کل مدل رو آموزش بدن (که خیلی انرژی و قدرت کامپیوتری مصرف میکنه)، VIFO فقط حدود ۷.۴۵٪ پارامترهای مدل بیناییش رو آموزش میده و بقیه رو همون جوری یخزده (فریز شده) نگه میداره! توضیح کوتاه: فریز کردن یعنی پارامترهای مدل رو دست نمیزنن.
نتیجه چی شده؟ این تیم VIFO رو روی چند تا دیتاست و تست مختلف اجرا کردن و دیدن هم بازده فوقالعادهیی گرفته، هم سرعت بالا رفته و هم مدل خیلی کمخرجتر شده.
جمعبندی راحت:
اگه دنبال پیشبینیهای دقیقتر در دیتاستهای چندمتغیره و پیچیده هستی، و ترجیح میدی صرفهجویی انرژی و زمان داشته باشی، VIFO گزینه خیلی جدیه. این مدل راهو باز کرده که همه چی رو فقط مثل دادههای ساده نبینیم، بلکه تصویرشون کنیم و از مدلهای بینایی برای کشف الگوهای مخفی پشت دادهها استفاده کنیم.
خلاصه، VIFO نشون داده دور هم جمع کردن اطلاعات از دنیاهای مختلف (مودالیتیها!) میتونه یه انقلاب جدید تو پیشبینی سری زمانی باشه!
منبع: +