یادگیری فعال چندرسانه‌ای: کمترین برچسب، بیشترین نتیجه!

ببین، الان این یادگیری ماشین و هوش مصنوعی و اینا کلی دنیای عجیب غریبی شدن، مخصوصاً وقتی بحث داده و برچسب‌زدن میشه!

تا قبل از این، بیشتر روش‌های یادگیری فعال (Active Learning، یعنی کاری کنیم مدل یادگیری، خودش بفهمه کدوم داده لازمه تا بهتر یاد بگیره و کمتر هزینه برچسب زدن بده) فقط روی داده‎های تک‌رسانه‌ای کار می‌کردن. یعنی یا فقط عکس، یا فقط متن، جدا جدا.

ولی دنیای واقعی اینجوری با ما تا نمی‌کنه! معمولاً کلی داده داریم که مثلا متن و تصویر یا صدا و ویدیو باهم قاطی شدن. اینجا بهش میگن داده «چندرسانه‌ای» یا همون Multimodal. حالا مشکل اینجاست که حتی اگه عکس‌ها و متن‌ها رو جدا داریم، مهم‌ترین چالش اینه که بفهمیم کدوم متن مال کدوم عکسه! اینجاست که قضیه سخت میشه و کلی هزینه برچسب‌زدن برای «هماهنگ‌سازی» این دوتا لازم داریم.

توی این مقاله اومدن یه حرکت خفن زدن: یه چارچوب جدید ساختن برای یادگیری فعال مخصوص داده‌های چندرسانه‌ای که جفت هم نیستن (یعنی هماهنگ یا آلاين نشده ان!). خودشون بهش میگن “multimodal active learning with unaligned data”. یعنی مدل باید یاد بگیره خودش بره و جفت متن و عکس‌های درست رو پیدا کنه، نه اینکه از قبل همه چی مرتب برچسب خورده باشه.

تا حالا تو روش‌های معروف مثل CLIP و SigLIP، کلی دردسر داشتیم چون یکی یکی باید این جفت‌ها رو به مدل نشون بدیم که خیلی زمان‌بر و گرون در میاد. اما این روشی که تو این مقاله معرفی شده، اومده با یه الگوریتم جدید، بر اساس دو تا اصل جالب کار کنه: یکی “عدم قطعیت” (uncertainty، یعنی جاهایی که مدل مطمئن نیست، بیشتر سراغشون میره) و یکی هم “تنوع” (diversity، یعنی فقط نمونه‌های مشابه رو انتخاب نمی‌کنه، قاطی پاطی سراغ مختلفا میره!).

این الگوریتم یه مزیت فوق‌العاده هم داره: زمان اجرای خطی داره! یعنی سریع و راحت توی حجم بالای داده هم جواب میده. تازه چه بخواییم همه داده‌هارو یه‌جا بریزیم (pool-based)، چه بخواییم کم‌کم داده‌ها بیان (streaming)، هر دو حالتو ساپورت می‌کنه.

اگه دنبال عدد و رقم باشی: طبق آزمایش‌هایی که کردن، مثلاً رو دیتاست ColorSwap دیدن میشه تا ۴۰٪ کمتر داده رو برچسب زد و بازم دقت حفظ میشه! یعنی با هزینه خیلی کمتر، میشه به همون کیفیت قبلی رسید.

در کل، این مقاله یه راهکار عملی برای همون مشکلیه که شاید زیاد بهش توجه نمی‌شد: برچسب‌زدن سنگین روی داده‌های پیچیده‌ی مدرن چندرسانه‌ای و جفت‌سازی‌شون. این روش می‌تونه انقلابی باشه برا تیم‌هایی که با کلی عکس و متن و صدا سروکله میزنن و دنبال صرفه‌جویی زمان و پول هستن.

پس خلاصه‌ش اینه: یادگیری فعال رو با داده‌های چندرسانه‌ای قاطی کردن، برچسب کمتر زدن، نتیجه بیشتر گرفتن! حیف نباشه امتحانش نکنی؟

منبع: +