اگه تا حالا با هوش مصنوعیهایی که ویدیو تحلیل میکنن کار کرده باشین، احتمالاً دیدین که بعضیاشون واقعاً قویان و اطلاعات خوبی از ویدیو درمیارن. ولی خب، وقتی حرف ویدیوهای خیلی بلند میشه، هنوز مشکلات جدی دارن. شاید برات جالب باشه بدونی که حتی مدلای خیلی باحالی مثل MLLMها (یعنی Multimodal Large Language Models، همون مدلای زبانی بزرگی که چندتا نوع ورودی مثلاً متن، تصویر و ویدیو رو با هم میگیرن) هم تو فهم فیلمهای طولانی زیاد موفق نیستن.
دلیلش چیه؟ این مدلها معمولاً میانون مثلاً هر ۵ ثانیه یا هر ۱۰ ثانیه یک فریم (یعنی یک عکس از ویدیو) جدا میکنن، یا کلاً یه جور نمونهبرداری یکنواخت انجام میدن. همین کار باعث میشه حافظه زیادی استفاده بشه و در عین حال ممکنه سکانسهای مهم رو هم از دست بدن. در صورتی که ما آدما اگه دنبال چیزی تو یه فیلم باشیم، خودمون هی جلومیریم، عقب میریم و دقیقتر مناطقی که به نظرمون جالبه رو نگاه میکنیم.
حالا تیمی که مقالهشون رو تازه تو arXiv منتشر کردن، اومدن یه روش خلاقانه معرفی کردن به اسم Temporal Search (یا TS، یعنی جستجوی زمانی). نکته باحال این روش اینه که اصلاً لازم نیست مدل رو بازآموزی کنی یا براش آموزش ویژه بذاری! TS یه جور تکنیک روی مدلهای آماده است که کمک میکنه این مدلها مثل آدمها بتونن هوشمندانهتر تو زمان ویدیو دنبال لحظات مهم بگردن.
چرا این TS جواب میده؟ قضیه اینه که متوجه شدن اگه مدل تو یه بازه زمانی خاص توی ویدیو اعتمادبهنفسش بره بالا (یعنی مطمئنتر جواب بده)، احتمال اینکه همون لحظه واقعاً جواب درست توشه هم میره بالا! یعنی این «اعتمادبهنفس» همون دنبالهایه که مدل میشه روش زوم کنه و لحظههای مهم رو پیدا کنه.
روش کار TS اینطوریه: در هر مرحله، مدل یه بازه زمانی پیشنهاد میده که احتمال زیاد جواب ما توشه. مثلاً اگه ازش پرسیدی “گربه کی تو تصویر ظاهر شد؟”، خودش یه بازه مثلاً دقیقه دوم تا چهارم رو انتخاب میکنه. بعد فقط از همون بازه خاص یه تعداد فریم (همون عکسایی که از ویدیو کشیده شدن) برمیداره و دوباره به مدل میده تا جوابش رو دقیقتر کنه و ببینه چقدر به جوابش مطمئنه. این فرآیند به شکل تکراری پیش میره، یعنی هی جزئیتر و جزئیتر میشه و مدل میره سراغ بازههای ریزتر که شانس پیدا کردن جواب اصلی بیشتره. اینطوری مدل کمکم یاد میگیره انرژی و توجهش رو صرف جاهایی بکنه که واقعاً لازمه و احتمالاً اطلاعات حیاتی اونجاست.
یه نکته باحال دیگه اینه که تو کل ویدیو، مدل توضیحات سطح کلیدی (Keyframe-level descriptions) برای هر فریم مهم جمع میکنه تا بتونه حتی از بازههای مختلف تصویر کلی داشته باشه. یعنی مثل این میمونه که یادداشتبرداری کنه تا آخرش یه دید جامع به فیلم پیدا کنه.
حالا برای اینکه این جستوجوی زمانبندیشده سریعتر و هوشمندانهتر بشه، یه چیزی هم به اسم TS-BFS بهش اضافه کردن. BFS اینجا یعنی Best-First Search، یعنی جستوجوی اول-بهترین. این یه الگوریتم کامپیوتریه که به مدل اجازه میده هر دفعه روی محتملترین (یا همون باارزشترین) بازه متمرکز بشه. ساختارش هم شبیه درخت (Tree) طراحی شده؛ هر گره یه بازه از ویدیو رو نشون میده. این گرهها یا با پیشنهاد خود مدل ساخته میشن، یا از طریق تقسیم یکنواخت زمانبندی میشن. بعدش با توجه به اعتمادبهنفس مدل و ارزیابی خودش (Self-evaluation)، مشخص میشه کدوم گره ارزش داره بیشتر بررسی بشه و مدل میره سراغ همون.
خلاصه بخوام بگم، این مقاله یه راهحل خلاقانه و بدون نیاز به آموزش مجدد، برای درک بهتر ویدیوهای خیلی بلند با استفاده از مدلهای زبانی مولتیمدال ارائه داده. با استفاده از TS و TS-BFS، مدل میتونه مثل یه آدم باهوش و کنجکاو، لحظه به لحظه ویدیو رو بگرده و جاهایی که احتمالاً جواب توشه، بیشتر کند و کاو کنه. پس اگه هوش مصنوعی رو تو کار تحلیل ویدیوهای بلند کم میاره، این روش احتمالاً به کارش میاد!
منبع: +