چطور یه مدل باحال با ویدیو و صدا می‌فهمه کی تو مکالمه واقعاً تو جریانه؟

بیا یه داستان باحال رو برات تعریف کنم! فرض کن چند نفر دارن تو یه گفت‌وگوی گروهی شرکت می‌کنن، مثلاً یه تماس تصویری که هر کی هم ویدیو داره هم صدا. حالا سوال اینه: چطور می‌تونیم بفهمیم کی واقعاً تو بحث مشارکت فعاله یا به قول معروف “انگیج” شده؟ (انگیج بودن یعنی واقعاً توجه و درگیر بودن تو بحث، نه فقط فیزیکی حاضر بودن)

خب، واسه اینکه این رو بفهمیم، دانشمندها اومدن و رفتن سراغ داده‌هایی مثل ویدیو و صدا از همه شرکت‌کننده‌ها. ولی این کار راحت نیست! چون هر شرکت‌کننده کلی داده داره (چندین فریم ویدیویی و صدا تو طول مکالمه)، و خیلی از این داده‌ها هی تکراری و شبیه همن. به این می‌گن «Redundancy» یا به زبان ساده همون اضافی بودن داده‌های تکراری بین فریم‌ها یا چندتا کانال (مثل صدا و تصویر).

حالا قبلاً یه مدل ساخته بودن که با استفاده از یه چیزی به اسم “global token-based transformers” می‌اومد این داده‌های مختلف رو خلاصه و روی بخشی از اطلاعات مهم تمرکز می‌کرد. Transformer یه مدل یادگیری ماشینیه که تو کار روی داده‌های ترتیبی (مثل متن یا ویدیو) خیلی قدرتمنده. حالت “global token-based” یعنی فقط اجازه می‌ده اطلاعات مهم (توکن‌های جهانی) به هم وصل شن و همه فریم‌ها بی‌حساب به هم وصل نمی‌شن تا داده زیاد نشه.

ولی بازم مشکل داشت: هنوز هم مدلشون توی مدیریت اون حجم زیادی از شباهت بین فریم‌ها گیج می‌شد و همه اطلاعات از هر کانال ممکن (یعنی حالت cross-attention، همون وصل‌کردن اطلاعات صدا و تصویر با هم) رو با همه فریم‌ها چک می‌کرد. نتیجه اینکه دوباره بعضی وقت‌ها مدل شلوغ می‌شد یا اطلاعات بدون کاربرد زیاد می‌شد.

اینجا بود که محقق‌ها گفتن: بیاید همه راه‌های تعامل بین شرکت‌کننده‌ها و داده‌های مختلف (مثلاً ویدیو این یکی با صدای اون یکی) رو با یه مدل مشترک (joint model) انجام بدیم و دیگه زیاد بین حالت‌های مختلف تمایز قائل نشیم. یعنی چه فریم‌های تصویر باشه، چه صدا باشه یا حتی تعامل شرکت‌کننده‌ها با هم، یک‌دست توی یه مدل بیاد. بازم از همون transformer استفاده کردن ولی این بار قاعده فرق داشت و همه این جریان‌ها رو با هم و با حداقل گیج شدن مدیریت کرد.

برای تست هم رفتن سراغ یه دیتاست به اسم RoomReader (این دیتاست یه مجموعه ویدیوهای مکالمه با افراد مختلفه که می‌دونیم کی چقدر انگیج بوده). مدلشون رو روی این داد‌ه‌ها اجرا کردن و نتیجه خیلی جالب شد:

– دقت یا همون Accuracy از 0.720 تا 0.763 رسید (یعنی تو تقریباً 72 تا 76 درصد موارد، مدل درست فهمید کی درگیر بحثه)
– شاخص Weighted F1 (که یه جور معیار تعادل بین دقت و شناسایی درسته) بین 0.733 تا 0.771 بود
– شاخص Macro F1 که داده‌های کم تعدادتر رو هم حساب می‌کنه، با وجود سخت‌تر بودنش، از 0.236 تا 0.277 رسید

نتیجه؟ مدل جدیدشون تو تخمین زدن مشارکت‌کننده فعال تو ویدیوهای چندنفره، از همه مدل‌های قبلی بهتر عمل کرده و داده‌های اضافی رو هم خیلی بهتر مدیریت می‌کنه.

پس خلاصه اینکه اگه بخوایم توی یه تماس گروهی بفهمیم واقعاً کی داره بحث رو پیش می‌بره و کی نه، این روش جدید با transformerها خیلی باحاله؛ چون هم داده رو خلاصه می‌کنه هم اشتباهی گیج نمی‌شه!

منبع: +