ببین، الان این یادگیری ماشین و هوش مصنوعی و اینا کلی دنیای عجیب غریبی شدن، مخصوصاً وقتی بحث داده و برچسبزدن میشه!
تا قبل از این، بیشتر روشهای یادگیری فعال (Active Learning، یعنی کاری کنیم مدل یادگیری، خودش بفهمه کدوم داده لازمه تا بهتر یاد بگیره و کمتر هزینه برچسب زدن بده) فقط روی دادههای تکرسانهای کار میکردن. یعنی یا فقط عکس، یا فقط متن، جدا جدا.
ولی دنیای واقعی اینجوری با ما تا نمیکنه! معمولاً کلی داده داریم که مثلا متن و تصویر یا صدا و ویدیو باهم قاطی شدن. اینجا بهش میگن داده «چندرسانهای» یا همون Multimodal. حالا مشکل اینجاست که حتی اگه عکسها و متنها رو جدا داریم، مهمترین چالش اینه که بفهمیم کدوم متن مال کدوم عکسه! اینجاست که قضیه سخت میشه و کلی هزینه برچسبزدن برای «هماهنگسازی» این دوتا لازم داریم.
توی این مقاله اومدن یه حرکت خفن زدن: یه چارچوب جدید ساختن برای یادگیری فعال مخصوص دادههای چندرسانهای که جفت هم نیستن (یعنی هماهنگ یا آلاين نشده ان!). خودشون بهش میگن “multimodal active learning with unaligned data”. یعنی مدل باید یاد بگیره خودش بره و جفت متن و عکسهای درست رو پیدا کنه، نه اینکه از قبل همه چی مرتب برچسب خورده باشه.
تا حالا تو روشهای معروف مثل CLIP و SigLIP، کلی دردسر داشتیم چون یکی یکی باید این جفتها رو به مدل نشون بدیم که خیلی زمانبر و گرون در میاد. اما این روشی که تو این مقاله معرفی شده، اومده با یه الگوریتم جدید، بر اساس دو تا اصل جالب کار کنه: یکی “عدم قطعیت” (uncertainty، یعنی جاهایی که مدل مطمئن نیست، بیشتر سراغشون میره) و یکی هم “تنوع” (diversity، یعنی فقط نمونههای مشابه رو انتخاب نمیکنه، قاطی پاطی سراغ مختلفا میره!).
این الگوریتم یه مزیت فوقالعاده هم داره: زمان اجرای خطی داره! یعنی سریع و راحت توی حجم بالای داده هم جواب میده. تازه چه بخواییم همه دادههارو یهجا بریزیم (pool-based)، چه بخواییم کمکم دادهها بیان (streaming)، هر دو حالتو ساپورت میکنه.
اگه دنبال عدد و رقم باشی: طبق آزمایشهایی که کردن، مثلاً رو دیتاست ColorSwap دیدن میشه تا ۴۰٪ کمتر داده رو برچسب زد و بازم دقت حفظ میشه! یعنی با هزینه خیلی کمتر، میشه به همون کیفیت قبلی رسید.
در کل، این مقاله یه راهکار عملی برای همون مشکلیه که شاید زیاد بهش توجه نمیشد: برچسبزدن سنگین روی دادههای پیچیدهی مدرن چندرسانهای و جفتسازیشون. این روش میتونه انقلابی باشه برا تیمهایی که با کلی عکس و متن و صدا سروکله میزنن و دنبال صرفهجویی زمان و پول هستن.
پس خلاصهش اینه: یادگیری فعال رو با دادههای چندرسانهای قاطی کردن، برچسب کمتر زدن، نتیجه بیشتر گرفتن! حیف نباشه امتحانش نکنی؟
منبع: +