بیا یه چیزی خیلی باحال رو برات تعریف کنم! یه تیم خفن اومدن یه روش جدید به اسم CoPT درست کردن که چالش خفن تو حوزه هوش مصنوعی رو آسونتر میکنه. حالا قضیه چیه؟ ما کلی موقع داریم که میخوایم قسمتهای مختلف یه عکس رو جدا کنیم (که بهش میگن segmentation یا سگمنتیشن تصاویر، یعنی پیدا کردن و جداسازی بخشهای مختلف مثلا گربه، سگ، ماشین تو عکس)، ولی دیتای برچسبخورده نداریم یا جمع کردنش واقعا سخته. مخصوصاً تو دنیایی که هر لحظه داده جدید و از دامینهای مختلف داریم (دامین یعنی زمینه یا محیطِ دادهها).
حالا یه بحث جذاب هست به اسم UDA یا Unsupervised Domain Adaptation، یعنی «سازگار کردن یه مدل با دامینهای جدید بدون این که برای اون دامینها دیتای برچسبخورده داشته باشیم». مدل رو با دادههای دامین اصلی آموزش میدن، بعد توقع دارن تو دامین جدید هم درست کار کنه. اما مهمترین مشکل اینه که مدلها معمولا دیگه روی دادههای جدید خوب جواب نمیدن، مخصوصا واسه segmentation که پیدا کردن و برچسب زدن مجموعههای بزرگ کلی زحمت داره.
اینجا تکنیک CoPT میاد وسط. پایه و اساسش اینه که از خاصیت بیطرف بودن متن کمک بگیریم؛ یعنی چی؟ یعنی وقتی تو مدلهای زبانی بزرگ (Large Language Model یا همون LLM که همون چیزیه که چتجیپیتی و دوستاش هستن) از متن استفاده میکنی، اون متنها خیلی وقتا فارغ از اینکه از کدوم دامین میان معنی خودشون رو دارن و وابسته به زمینه خاص نیستن. این توانایی در متناعه (domain-agnostic) بودن که متن داره، باعث میشه بشه ازش برای کنار هم آوردن (align) ویژگیهای مدل تو دامین جدید و قدیم استفاده کرد.
خلاصهش اینکه تو CoPT میان از یه ترکیب باهوشانه بین متن و تصویر استفاده میکنن. یه تکنیک دارن به اسم Covariance-based Pixel-Text loss یا به اختصار CoPT. خیلی اسمش فسلفی شد، اما سادهش اینه: میان متن مربوط به هر کلاس (مثلا «ماشین»، «درخت»، «سگ») رو با کمک یه روند خاص به مدل میدن تا مدل یاد بگیره فارغ از اینکه دامین چیه، اون مفهوم رو درست بشناسه.
این وسط از دو تکنولوژی باحال استفاده میکنن:
۱- LLM Domain Template: یعنی مدل زبانی بزرگ رو میارن پایین و براش توصیفهایی درباره دامین مبدا و هدف مینویسن.
۲- CLIP model: یه مدل ترکیبی تصویر-متن که کارش اینه که عکس و جمله رو با هم مقایسه کنه و خودش بتونه بفهمه که تصویر و توضیحش بهم میخورن یا نه. این مدل تو حالت freeze یعنی ثابت نگهش میدارن تا فقط از «برداشت»هایی که از تطبیق متن و تصویر داره کمک بگیرن، نه اینکه خودش تغییر کنه.
پس خلاصه فرایند اینطوری میشه: متنها و توصیفهای دامین مختلف با LLM ساخته میشن، میشن ورودی CLIP، و ویژگیهای متنی و تصویری با هم ترکیب میشن تا مدل سگمنتیشن (همون بخشی که عکس رو بخشبندی میکنه) یاد بگیره «بیتفاوت به دامین» باشه و فقط به معنای واقعی پیکسلا و متن تکیه کنه.
حالا نتیجه چی شده؟ یه مدل زدن که با همین CoPT روی چهار تا دیتاست معروف تست شده و تونسته بهترین نتیجهی ممکن تو زمینه UDA برای segmentation یا همون بخشبندی بدون داده برچسبخورده رو بگیره. یعنی رکورد زده!
در کل، اگه دوست داری خودت بری سر کدها یا بیشتر بخونی، این تیم لینکش رو هم گذاشتن: https://github.com/cfmata/CoPT
پس اگر تا حالا فکر میکردی دیتای برچسبخورده الزامی برای کامیپوتر ویژن و تصویرسازی هوشمندیه، چشمهاتو بیشتر باز کن! با این مدلهای تازه و با مغز ترکیبی متن-تصویر، خیلی از محدودیتا دارن برطرف میشن و مدلها حتی با دامین جدید هم بدون دیتاهای برچسبی کار میکنن! خیلی خفن نیست؟!
منبع: +