وقتی متن‌ها به کمک هوش مصنوعی میان: روش خفن CoPT واسه سگمنت کردن تصاویر بدون داده برچسب‌خورده!

بیا یه چیزی خیلی باحال رو برات تعریف کنم! یه تیم خفن اومدن یه روش جدید به اسم CoPT درست کردن که چالش خفن تو حوزه هوش مصنوعی رو آسون‌تر میکنه. حالا قضیه چیه؟ ما کلی موقع داریم که می‌خوایم قسمت‌های مختلف یه عکس رو جدا کنیم (که بهش میگن segmentation یا سگمنتیشن تصاویر، یعنی پیدا کردن و جداسازی بخش‌های مختلف مثلا گربه، سگ، ماشین تو عکس)، ولی دیتای برچسب‌خورده نداریم یا جمع کردنش واقعا سخته. مخصوصاً تو دنیایی که هر لحظه داده جدید و از دامین‌های مختلف داریم (دامین یعنی زمینه یا محیطِ داده‌ها).

حالا یه بحث جذاب هست به اسم UDA یا Unsupervised Domain Adaptation، یعنی «سازگار کردن یه مدل با دامین‌های جدید بدون این که برای اون دامین‌ها دیتای برچسب‌خورده داشته باشیم». مدل رو با داده‌های دامین اصلی آموزش می‌دن، بعد توقع دارن تو دامین جدید هم درست کار کنه. اما مهم‌ترین مشکل اینه که مدل‌ها معمولا دیگه روی داده‌های جدید خوب جواب نمی‌دن، مخصوصا واسه segmentation که پیدا کردن و برچسب زدن مجموعه‌های بزرگ کلی زحمت داره.

اینجا تکنیک CoPT میاد وسط. پایه و اساسش اینه که از خاصیت بی‌طرف بودن متن کمک بگیریم؛ یعنی چی؟ یعنی وقتی تو مدل‌های زبانی بزرگ (Large Language Model یا همون LLM که همون چیزیه که چت‌جی‌پی‌تی و دوستاش هستن) از متن استفاده می‌کنی، اون متن‌ها خیلی وقتا فارغ از اینکه از کدوم دامین میان معنی خودشون رو دارن و وابسته به زمینه خاص نیستن. این توانایی در متناعه (domain-agnostic) بودن که متن داره، باعث میشه بشه ازش برای کنار هم آوردن (align) ویژگی‌های مدل تو دامین جدید و قدیم استفاده کرد.

خلاصه‌ش اینکه تو CoPT میان از یه ترکیب باهوشانه بین متن و تصویر استفاده می‌کنن. یه تکنیک دارن به اسم Covariance-based Pixel-Text loss یا به اختصار CoPT. خیلی اسمش فسلفی شد، اما ساده‌ش اینه: میان متن مربوط به هر کلاس (مثلا «ماشین»، «درخت»، «سگ») رو با کمک یه روند خاص به مدل می‌دن تا مدل یاد بگیره فارغ از اینکه دامین چیه، اون مفهوم رو درست بشناسه.

این وسط از دو تکنولوژی باحال استفاده می‌کنن:
۱- LLM Domain Template: یعنی مدل زبانی بزرگ رو میارن پایین و براش توصیف‌هایی درباره دامین مبدا و هدف می‌نویسن.
۲- CLIP model: یه مدل ترکیبی تصویر-متن که کارش اینه که عکس و جمله رو با هم مقایسه کنه و خودش بتونه بفهمه که تصویر و توضیحش بهم می‌خورن یا نه. این مدل تو حالت freeze یعنی ثابت نگهش می‌دارن تا فقط از «برداشت»‌هایی که از تطبیق متن و تصویر داره کمک بگیرن، نه اینکه خودش تغییر کنه.

پس خلاصه فرایند اینطوری میشه: متن‌ها و توصیف‌های دامین مختلف با LLM ساخته می‌شن، می‌شن ورودی CLIP، و ویژگی‌های متنی و تصویری با هم ترکیب می‌شن تا مدل سگمنتیشن (همون بخشی که عکس رو بخش‌بندی می‌کنه) یاد بگیره «بی‌تفاوت به دامین» باشه و فقط به معنای واقعی پیکسلا و متن تکیه کنه.

حالا نتیجه چی شده؟ یه مدل زدن که با همین CoPT روی چهار تا دیتاست معروف تست شده و تونسته بهترین نتیجه‌ی ممکن تو زمینه UDA برای segmentation یا همون بخش‌بندی بدون داده برچسب‌خورده رو بگیره. یعنی رکورد زده!

در کل، اگه دوست داری خودت بری سر کدها یا بیشتر بخونی، این تیم لینکش رو هم گذاشتن: https://github.com/cfmata/CoPT

پس اگر تا حالا فکر می‌کردی دیتای برچسب‌خورده الزامی برای کامیپوتر ویژن و تصویرسازی هوشمندیه، چشم‌هاتو بیشتر باز کن! با این مدل‌های تازه و با مغز ترکیبی متن-تصویر، خیلی از محدودیتا دارن برطرف می‌شن و مدل‌ها حتی با دامین جدید هم بدون دیتاهای برچسبی کار می‌کنن! خیلی خفن نیست؟!

منبع: +