تا حالا به این فکر کردی که رباتها چطوری باید با تصویر و زبان کار کنن تا بتونن یه کار رو درست انجام بدن؟ خب توی هوش مصنوعی یه سری مدل هست که بهشون میگن Vision-Language-Action یا همون VLA. یعنی مدلی که تصویر رو میگیره، با زبان ارتباط برقرار میکنه و بعدا یه اکشنی (مثلاً برداشتن یه شیء) انجام میده.
معمولاً این مدلای VLA تصویرها رو یکییکی و جدا جدا تو هر لحظه بررسی میکنن. این یعنی هر فریم مثل یه عکس تک بررسی میشه، انگار اصلاً به قبلش نگاه نمیکنن. مشکلش چیه؟ خب اگه یه تصویر اشتباهی بیاد، مدل نمیتونه با کمک تصاویر قبلی درست تصمیم بگیره و یه جورایی نسبت به نویز تصویری هم حساس میشه.
اینجا یه ایده توپ اومده وسط که اسمش Temporal Token Fusion یا همون TTF هست. حالا این چیه؟ TTF یعنی ترکیب کردن اطلاعات تصویری الان و قبلاً به صورت هوشمند، اونم بدون اینکه نیازی به آموزش یا ترِینینگ باشه. کلاً مدل یه جورایی باهوشتر میشه و میفهمه قبل و بعد تصویر چی اتفاق میفته تا تصمیمات دقیقتر بگیره.
روش کار چطوریه؟ TTF از دو بعد مختلف بررسی میکنه:
-
یه آنالیز سریع به سبک مقایسه پیکسلی سیاه و سفید (grayscale pixel difference) انجام میده. یعنی مثلاً تفاوتای سطحی بین تصویرای قبل و حال رو میسنجه تا ببینه چی تغییر کرده.
-
همزمان با اون، توجه معنایی داره. یعنی Semantic Relevance Assessment انجام میده که به زبان ساده یعنی میفهمه کدوم بخش تصاویر مهمتره و نیاز به توجه داره.
با این ترکیب، مدل تصمیم میگیره کدوم اطلاعات تصویری جدید رو با دادههای قبلی قاطی کنه (به این کار میگن hard fusion که یعنی ترکیب قوی و جدی، با تعارف نیست!) و جالبتر اینکه یه سری فریم مهم رو به عنوان Keyframe یا قاب کلیدی نگه میداره که اگه جایی اشتباهی پیش اومد، اون اشتباه مثل دومینو پخش نشه تو بقیهی کارها.
توی تستهایی که روی دیتاست LIBERO و محیط SimplerEnv و حتی ربات واقعی انجام دادن، نتیجهها خیلی جالب بوده:
- توی LIBERO مدل با این روش ۴ درصد بهتر شده (یعنی از ۶۸.۴ میشه ۷۲.۴ درصد).
- تو SimplerEnv هم ۴.۸ درصد بهبود رو نشون دادن.
- و حتی روی ربات واقعی هم بازدهی ۸.۷ درصد بهتر شده. یعنی حسابی جواب داده!
یه نکته مهم اینه که این TTF کلاً مدلباز یا همون Model-Agnostic هست. یعنی مثلا رو هر نوع مدل VLA ازجمله OpenVLA یا VLA-Cache هم اجرا میشه و الزاماً بایند به یه معماری خاص نیست.
یه کشف خفن دیگه هم داشتن: اومدن و بخش Query Matrix رو تو Attention Mechanism — (این مکانیزم یه جور روش هوشمنده که مشخص میکنه مدل بیشتر رو کدوم اطلاعات تمرکز کنه) — به جای اینکه هر لحظه جدید بسازه، بعضی وقتا دوباره از همون Query قبلی استفاده کردن. برعکس تصور اولیه که فکر میشه دقیق نباشه، دیدن نه تنها کار خراب نشده بلکه عملکرد حتی بهتر هم شده! این یعنی شاید تو آینده بشه بخشهای دیگه مثل KQV Matrix رو بازم مستقیم دوباره استفاده کرد، بدون اینکه سرعت یا دقت کم بشه — بلکه حتی سریعتر و موفقتر باشیم.
خلاصه کلام، اگه دوست داری مدل ربات هوشمند داشته باشی که حواسش به «زمینه زمانی کارها» هست و کمتر گیج میشه، این روش Temporal Token Fusion راه خیلی خوبی نشون داده. هم راحت پیاده میشه، هم نیازی به آموزش دوباره مدلها نداره، هم نتایجش تجربی واقعاً باحاله! تازه کلی راه جدید جلوی پای آدم میذاره واسه مدلای پیشرفتهتر آینده.
منبع: +