درک ویدیوهای بلند با روش زوم-کردن مرحله‌ای: چطور هوش مصنوعی بالاخره می‌فهمه تو فیلمای طولانی چی می‌گذره؟

اگه تا حالا با هوش مصنوعی‌هایی که ویدیو تحلیل می‌کنن کار کرده باشین، احتمالاً دیدین که بعضیاشون واقعاً قوی‌ان و اطلاعات خوبی از ویدیو درمیارن. ولی خب، وقتی حرف ویدیوهای خیلی بلند میشه، هنوز مشکلات جدی دارن. شاید برات جالب باشه بدونی که حتی مدلای خیلی باحالی مثل MLLMها (یعنی Multimodal Large Language Models، همون مدلای زبانی بزرگی که چندتا نوع ورودی مثلاً متن، تصویر و ویدیو رو با هم می‌گیرن) هم تو فهم فیلم‌های طولانی زیاد موفق نیستن.

دلیلش چیه؟ این مدل‌ها معمولاً میانون مثلاً هر ۵ ثانیه یا هر ۱۰ ثانیه یک فریم (یعنی یک عکس از ویدیو) جدا می‌کنن، یا کلاً یه جور نمونه‌برداری یکنواخت انجام میدن. همین کار باعث میشه حافظه زیادی استفاده بشه و در عین حال ممکنه سکانس‌های مهم رو هم از دست بدن. در صورتی که ما آدما اگه دنبال چیزی تو یه فیلم باشیم، خودمون هی جلومیریم، عقب میریم و دقیق‌تر مناطقی که به نظرمون جالبه رو نگاه می‌کنیم.

حالا تیمی که مقاله‌شون رو تازه تو arXiv منتشر کردن، اومدن یه روش خلاقانه معرفی کردن به اسم Temporal Search (یا TS، یعنی جستجوی زمانی). نکته باحال این روش اینه که اصلاً لازم نیست مدل رو بازآموزی کنی یا براش آموزش ویژه بذاری! TS یه جور تکنیک روی مدل‌های آماده است که کمک می‌کنه این مدل‌ها مثل آدم‌ها بتونن هوشمندانه‌تر تو زمان ویدیو دنبال لحظات مهم بگردن.

چرا این TS جواب میده؟ قضیه اینه که متوجه شدن اگه مدل تو یه بازه زمانی خاص توی ویدیو اعتمادبه‌نفسش بره بالا (یعنی مطمئن‌تر جواب بده)، احتمال اینکه همون لحظه واقعاً جواب درست توشه هم میره بالا! یعنی این «اعتمادبه‌نفس» همون دنباله‌ایه که مدل می‌شه روش زوم کنه و لحظه‌های مهم رو پیدا کنه.

روش کار TS اینطوریه: در هر مرحله، مدل یه بازه زمانی پیشنهاد میده که احتمال زیاد جواب ما توشه. مثلاً اگه ازش پرسیدی “گربه کی تو تصویر ظاهر شد؟”، خودش یه بازه مثلاً دقیقه دوم تا چهارم رو انتخاب می‌کنه. بعد فقط از همون بازه خاص یه تعداد فریم (همون عکسایی که از ویدیو کشیده شدن) برمی‌داره و دوباره به مدل میده تا جوابش رو دقیق‌تر کنه و ببینه چقدر به جوابش مطمئنه. این فرآیند به شکل تکراری پیش می‌ره، یعنی هی جزئی‌تر و جزئی‌تر میشه و مدل می‌ره سراغ بازه‌های ریزتر که شانس پیدا کردن جواب اصلی بیشتره. اینطوری مدل کم‌کم یاد می‌گیره انرژی و توجهش رو صرف جاهایی بکنه که واقعاً لازمه و احتمالاً اطلاعات حیاتی اونجاست.

یه نکته باحال دیگه اینه که تو کل ویدیو، مدل توضیحات سطح کلیدی (Keyframe-level descriptions) برای هر فریم مهم جمع می‌کنه تا بتونه حتی از بازه‌های مختلف تصویر کلی داشته باشه. یعنی مثل این می‌مونه که یادداشت‌برداری کنه تا آخرش یه دید جامع به فیلم پیدا کنه.

حالا برای اینکه این جست‌وجوی زمان‌بندی‌شده سریع‌تر و هوشمندانه‌تر بشه، یه چیزی هم به اسم TS-BFS بهش اضافه کردن. BFS اینجا یعنی Best-First Search، یعنی جست‌وجوی اول-بهترین. این یه الگوریتم کامپیوتریه که به مدل اجازه می‌ده هر دفعه روی محتمل‌ترین (یا همون باارزش‌ترین) بازه متمرکز بشه. ساختارش هم شبیه درخت (Tree) طراحی شده؛ هر گره یه بازه از ویدیو رو نشون می‌ده. این گره‌ها یا با پیشنهاد خود مدل ساخته میشن، یا از طریق تقسیم یکنواخت زمان‌بندی میشن. بعدش با توجه به اعتمادبه‌نفس مدل و ارزیابی خودش (Self-evaluation)، مشخص می‌شه کدوم گره ارزش داره بیشتر بررسی بشه و مدل میره سراغ همون.

خلاصه بخوام بگم، این مقاله یه راه‌حل خلاقانه و بدون نیاز به آموزش مجدد، برای درک بهتر ویدیوهای خیلی بلند با استفاده از مدل‌های زبانی مولتی‌مدال ارائه داده. با استفاده از TS و TS-BFS، مدل می‌تونه مثل یه آدم باهوش و کنجکاو، لحظه به لحظه ویدیو رو بگرده و جاهایی که احتمالاً جواب توشه، بیشتر کند و کاو کنه. پس اگه هوش مصنوعی رو تو کار تحلیل ویدیوهای بلند کم میاره، این روش احتمالاً به کارش میاد!
منبع: +