ترکیب زمان، تصویر و توجه: چطور مدل‌های ویژن-زبان-اکشن با روش TTF-VLA قوی‌تر میشن!

Fall Back

تا حالا به این فکر کردی که ربات‌ها چطوری باید با تصویر و زبان کار کنن تا بتونن یه کار رو درست انجام بدن؟ خب توی هوش مصنوعی یه سری مدل هست که بهشون میگن Vision-Language-Action یا همون VLA. یعنی مدلی که تصویر رو می‌گیره، با زبان ارتباط برقرار می‌کنه و بعدا یه اکشنی (مثلاً برداشتن یه شیء) انجام میده.

معمولاً این مدلای VLA تصویرها رو یکی‌یکی و جدا جدا تو هر لحظه بررسی می‌کنن. این یعنی هر فریم مثل یه عکس تک بررسی میشه، انگار اصلاً به قبلش نگاه نمی‌کنن. مشکلش چیه؟ خب اگه یه تصویر اشتباهی بیاد، مدل نمی‌تونه با کمک تصاویر قبلی درست تصمیم بگیره و یه جورایی نسبت به نویز تصویری هم حساس میشه.

اینجا یه ایده توپ اومده وسط که اسمش Temporal Token Fusion یا همون TTF هست. حالا این چیه؟ TTF یعنی ترکیب کردن اطلاعات تصویری الان و قبلاً به صورت هوشمند، اونم بدون اینکه نیازی به آموزش یا ترِینینگ باشه. کلاً مدل یه جورایی باهوش‌تر میشه و می‌فهمه قبل و بعد تصویر چی اتفاق میفته تا تصمیمات دقیق‌تر بگیره.

روش کار چطوریه؟ TTF از دو بعد مختلف بررسی می‌کنه:

  1. یه آنالیز سریع به سبک مقایسه پیکسلی سیاه و سفید (grayscale pixel difference) انجام میده. یعنی مثلاً تفاوتای سطحی بین تصویرای قبل و حال رو می‌سنجه تا ببینه چی تغییر کرده.

  2. همزمان با اون، توجه معنایی داره. یعنی Semantic Relevance Assessment انجام میده که به زبان ساده یعنی می‌فهمه کدوم بخش تصاویر مهم‌تره و نیاز به توجه داره.

با این ترکیب، مدل تصمیم می‌گیره کدوم اطلاعات تصویری جدید رو با داده‌های قبلی قاطی کنه (به این کار میگن hard fusion که یعنی ترکیب قوی و جدی، با تعارف نیست!) و جالب‌تر اینکه یه سری فریم مهم رو به عنوان Keyframe یا قاب کلیدی نگه می‌داره که اگه جایی اشتباهی پیش اومد، اون اشتباه مثل دومینو پخش نشه تو بقیه‌ی کارها.

توی تست‌هایی که روی دیتاست LIBERO و محیط SimplerEnv و حتی ربات واقعی انجام دادن، نتیجه‌ها خیلی جالب بوده:

  • توی LIBERO مدل با این روش ۴ درصد بهتر شده (یعنی از ۶۸.۴ میشه ۷۲.۴ درصد).
  • تو SimplerEnv هم ۴.۸ درصد بهبود رو نشون دادن.
  • و حتی روی ربات واقعی هم بازدهی ۸.۷ درصد بهتر شده. یعنی حسابی جواب داده!

یه نکته مهم اینه که این TTF کلاً مدل‌باز یا همون Model-Agnostic هست. یعنی مثلا رو هر نوع مدل VLA ازجمله OpenVLA یا VLA-Cache هم اجرا میشه و الزاماً بایند به یه معماری خاص نیست.

یه کشف خفن دیگه هم داشتن: اومدن و بخش Query Matrix رو تو Attention Mechanism — (این مکانیزم یه جور روش هوشمنده که مشخص می‌کنه مدل بیشتر رو کدوم اطلاعات تمرکز کنه) — به جای اینکه هر لحظه جدید بسازه، بعضی وقتا دوباره از همون Query قبلی استفاده کردن. برعکس تصور اولیه که فکر میشه دقیق نباشه، دیدن نه تنها کار خراب نشده بلکه عملکرد حتی بهتر هم شده! این یعنی شاید تو آینده بشه بخش‌های دیگه مثل KQV Matrix رو بازم مستقیم دوباره استفاده کرد، بدون اینکه سرعت یا دقت کم بشه — بلکه حتی سریع‌تر و موفق‌تر باشیم.

خلاصه کلام، اگه دوست داری مدل ربات هوشمند داشته باشی که حواسش به «زمینه زمانی کارها» هست و کمتر گیج میشه، این روش Temporal Token Fusion راه خیلی خوبی نشون داده. هم راحت پیاده میشه، هم نیازی به آموزش دوباره مدل‌ها نداره، هم نتایجش تجربی واقعاً باحاله! تازه کلی راه جدید جلوی پای آدم میذاره واسه مدلای پیشرفته‌تر آینده.

منبع: +