CoBA: یه روش باحال برای مقابله با خطاهای مدل‌های هوش مصنوعی با تقویت داده‌ها

تاحالا شده یه مدل هوش مصنوعی داشته باشی که فکر کنی خیلی باهوشه اما وقتی بهش داده جدید بدی، یهو خراب کنه؟ خب این مشکل ریشه تو «همبستگی‌های کاذب» داره! یعنی مدل به جای اینکه فقط دنبال چیزای مهم برای پیش‌بینی باشه، میره سراغ الگوهای الکی که تو دیتای آموزشی دیده. مثلاً اگه همیشه تصویر یک پزشک مرد باشه، مدل احتمالاً فکر می‌کنه هر کی روپوش داره قطعاً مرده! به این حالت میگن “bias” یا همون تعصب مدل نسبت به یه سری ویژگی‌های بی‌ربط.

حالا دانشمندای خفن یه راه‌حل جدید ساختن به اسم CoBA که خلاصه‌ش میشه CounterBias Augmentation. معنی ساده‌ش میشه اضافه کردن داده‌هایی که تعصبات مدل رو به چالش بکشه؛ یعنی به مدل نشون بدیم نباید روی اون ارتباطات اشتباه حساب کنه. “Augmentation” یعنی زیاد کردن یا گسترش دادن داده‌ها در یادگیری ماشین با روش‌های مختلف، مثلاً جابجا کردن یا تغییر قسمت‌هایی از داده‌ها تا مدل تنوع بیشتری ببینه.

توی CoBA یه ایده خلاقانه هست: به جای اینکه به کل متن دست بزنن، اول متن‌ها رو تبدیل می‌کنن به «سه‌تایی معنایی» یا همون “semantic triples”. یعنی هر جمله رو به شکل موضوع – فعل – مفعول می‌شکونن (این ساختار شبه جمله تو زبان انگلیسی و هوش مصنوعی خیلی کاربردیه). مثلاً جمله: «زهرا کتاب می‌خواند» میشه [زهرا، می‌خواند، کتاب].

بعد، توی هر triple یا سه‌تایی، یه سر تغییر میدن تا اون همبستگی‌های اشتباه رو به‌هم بزنن. واسه مثال مدل همیشه فکر می‌کرده مهندس مرده، حالا triple رو میارن که مهندس زن باشه! بعد دوباره از این tripleهای جدید، متن می‌سازن و اینطوری کلی داده جدید داریم که مدل رو از تعصب درمیاره.

ایده اینه که وقتی مدل با داده‌های جدید و ترکیب‌های غیرمنتظره روبرو میشه، دیگه نمی‌تونه فقط بر اساس الگوهای کلیشه‌ای تصمیم بگیره. این کمک می‌کنه مدل قوی‌تر بشه و روی داده‌هایی که قبلاً ندیده، هم خوب جواب بده. این ویژگی رو بهش میگن “out-of-distribution robustness”، یعنی مقاومت مدل در برابر داده‌های خارج از نمونه‌های آموزش‌دیده.

جالب اینجاست که CoBA فقط یک نوع bias رو هدف نمی‌گیره؛ چندتا تعصب مختلف (مثلاً تعصب جنسیتی یا سادگی بیش از حد در پیش‌بینی) رو همزمان هدف قرار می‌ده. محقق‌ها کلی آزمایش انجام دادن و نشون دادن که این روش هم عملکرد مدل رو بهتر می‌کنه، هم باعث میشه مدل کمتر به الگوهای اشتباه جواب بده.

خلاصه بخوام بگم، CoBA یه ابزار باحاله برای هر کسی که نمی‌خواد مدل یادگیری ماشینش تعصبی یا کلیشه‌ای کار کنه و می‌خواد به درد دنیای واقعی بخوره؛ مخصوصاً وقتی قراره با داده‌های عجیب و غریب سر و کار داشته باشه!

منبع: +