بیا یه داستان باحال رو برات تعریف کنم! فرض کن چند نفر دارن تو یه گفتوگوی گروهی شرکت میکنن، مثلاً یه تماس تصویری که هر کی هم ویدیو داره هم صدا. حالا سوال اینه: چطور میتونیم بفهمیم کی واقعاً تو بحث مشارکت فعاله یا به قول معروف “انگیج” شده؟ (انگیج بودن یعنی واقعاً توجه و درگیر بودن تو بحث، نه فقط فیزیکی حاضر بودن)
خب، واسه اینکه این رو بفهمیم، دانشمندها اومدن و رفتن سراغ دادههایی مثل ویدیو و صدا از همه شرکتکنندهها. ولی این کار راحت نیست! چون هر شرکتکننده کلی داده داره (چندین فریم ویدیویی و صدا تو طول مکالمه)، و خیلی از این دادهها هی تکراری و شبیه همن. به این میگن «Redundancy» یا به زبان ساده همون اضافی بودن دادههای تکراری بین فریمها یا چندتا کانال (مثل صدا و تصویر).
حالا قبلاً یه مدل ساخته بودن که با استفاده از یه چیزی به اسم “global token-based transformers” میاومد این دادههای مختلف رو خلاصه و روی بخشی از اطلاعات مهم تمرکز میکرد. Transformer یه مدل یادگیری ماشینیه که تو کار روی دادههای ترتیبی (مثل متن یا ویدیو) خیلی قدرتمنده. حالت “global token-based” یعنی فقط اجازه میده اطلاعات مهم (توکنهای جهانی) به هم وصل شن و همه فریمها بیحساب به هم وصل نمیشن تا داده زیاد نشه.
ولی بازم مشکل داشت: هنوز هم مدلشون توی مدیریت اون حجم زیادی از شباهت بین فریمها گیج میشد و همه اطلاعات از هر کانال ممکن (یعنی حالت cross-attention، همون وصلکردن اطلاعات صدا و تصویر با هم) رو با همه فریمها چک میکرد. نتیجه اینکه دوباره بعضی وقتها مدل شلوغ میشد یا اطلاعات بدون کاربرد زیاد میشد.
اینجا بود که محققها گفتن: بیاید همه راههای تعامل بین شرکتکنندهها و دادههای مختلف (مثلاً ویدیو این یکی با صدای اون یکی) رو با یه مدل مشترک (joint model) انجام بدیم و دیگه زیاد بین حالتهای مختلف تمایز قائل نشیم. یعنی چه فریمهای تصویر باشه، چه صدا باشه یا حتی تعامل شرکتکنندهها با هم، یکدست توی یه مدل بیاد. بازم از همون transformer استفاده کردن ولی این بار قاعده فرق داشت و همه این جریانها رو با هم و با حداقل گیج شدن مدیریت کرد.
برای تست هم رفتن سراغ یه دیتاست به اسم RoomReader (این دیتاست یه مجموعه ویدیوهای مکالمه با افراد مختلفه که میدونیم کی چقدر انگیج بوده). مدلشون رو روی این دادهها اجرا کردن و نتیجه خیلی جالب شد:
– دقت یا همون Accuracy از 0.720 تا 0.763 رسید (یعنی تو تقریباً 72 تا 76 درصد موارد، مدل درست فهمید کی درگیر بحثه)
– شاخص Weighted F1 (که یه جور معیار تعادل بین دقت و شناسایی درسته) بین 0.733 تا 0.771 بود
– شاخص Macro F1 که دادههای کم تعدادتر رو هم حساب میکنه، با وجود سختتر بودنش، از 0.236 تا 0.277 رسید
نتیجه؟ مدل جدیدشون تو تخمین زدن مشارکتکننده فعال تو ویدیوهای چندنفره، از همه مدلهای قبلی بهتر عمل کرده و دادههای اضافی رو هم خیلی بهتر مدیریت میکنه.
پس خلاصه اینکه اگه بخوایم توی یه تماس گروهی بفهمیم واقعاً کی داره بحث رو پیش میبره و کی نه، این روش جدید با transformerها خیلی باحاله؛ چون هم داده رو خلاصه میکنه هم اشتباهی گیج نمیشه!
منبع: +