تاحالا شده یه مدل هوش مصنوعی داشته باشی که فکر کنی خیلی باهوشه اما وقتی بهش داده جدید بدی، یهو خراب کنه؟ خب این مشکل ریشه تو «همبستگیهای کاذب» داره! یعنی مدل به جای اینکه فقط دنبال چیزای مهم برای پیشبینی باشه، میره سراغ الگوهای الکی که تو دیتای آموزشی دیده. مثلاً اگه همیشه تصویر یک پزشک مرد باشه، مدل احتمالاً فکر میکنه هر کی روپوش داره قطعاً مرده! به این حالت میگن “bias” یا همون تعصب مدل نسبت به یه سری ویژگیهای بیربط.
حالا دانشمندای خفن یه راهحل جدید ساختن به اسم CoBA که خلاصهش میشه CounterBias Augmentation. معنی سادهش میشه اضافه کردن دادههایی که تعصبات مدل رو به چالش بکشه؛ یعنی به مدل نشون بدیم نباید روی اون ارتباطات اشتباه حساب کنه. “Augmentation” یعنی زیاد کردن یا گسترش دادن دادهها در یادگیری ماشین با روشهای مختلف، مثلاً جابجا کردن یا تغییر قسمتهایی از دادهها تا مدل تنوع بیشتری ببینه.
توی CoBA یه ایده خلاقانه هست: به جای اینکه به کل متن دست بزنن، اول متنها رو تبدیل میکنن به «سهتایی معنایی» یا همون “semantic triples”. یعنی هر جمله رو به شکل موضوع – فعل – مفعول میشکونن (این ساختار شبه جمله تو زبان انگلیسی و هوش مصنوعی خیلی کاربردیه). مثلاً جمله: «زهرا کتاب میخواند» میشه [زهرا، میخواند، کتاب].
بعد، توی هر triple یا سهتایی، یه سر تغییر میدن تا اون همبستگیهای اشتباه رو بههم بزنن. واسه مثال مدل همیشه فکر میکرده مهندس مرده، حالا triple رو میارن که مهندس زن باشه! بعد دوباره از این tripleهای جدید، متن میسازن و اینطوری کلی داده جدید داریم که مدل رو از تعصب درمیاره.
ایده اینه که وقتی مدل با دادههای جدید و ترکیبهای غیرمنتظره روبرو میشه، دیگه نمیتونه فقط بر اساس الگوهای کلیشهای تصمیم بگیره. این کمک میکنه مدل قویتر بشه و روی دادههایی که قبلاً ندیده، هم خوب جواب بده. این ویژگی رو بهش میگن “out-of-distribution robustness”، یعنی مقاومت مدل در برابر دادههای خارج از نمونههای آموزشدیده.
جالب اینجاست که CoBA فقط یک نوع bias رو هدف نمیگیره؛ چندتا تعصب مختلف (مثلاً تعصب جنسیتی یا سادگی بیش از حد در پیشبینی) رو همزمان هدف قرار میده. محققها کلی آزمایش انجام دادن و نشون دادن که این روش هم عملکرد مدل رو بهتر میکنه، هم باعث میشه مدل کمتر به الگوهای اشتباه جواب بده.
خلاصه بخوام بگم، CoBA یه ابزار باحاله برای هر کسی که نمیخواد مدل یادگیری ماشینش تعصبی یا کلیشهای کار کنه و میخواد به درد دنیای واقعی بخوره؛ مخصوصاً وقتی قراره با دادههای عجیب و غریب سر و کار داشته باشه!
منبع: +