حتماً براتون پیش اومده که یه متنی بخونید و با خودتون فکر کنید: «این رو واقعاً یه آدم نوشته یا دست یه هوش مصنوعی پشتشه؟» مخصوصاً با این هوشهای مصنوعی خیلی پیشرفته که اسمشون Large Language Models (LLM) ـه، مثلاً همون ChatGPT یا مدلهای مشابه. LLM یعنی یه مدل خیلی بزرگ و خفن که میتونه مثل انسانها با زبان کار کنه و متن بنویسه.
حالا مشکل اینجاست که این مدلها میتونن حسابی سواستفاده بشن. پس نیاز داریم بتونیم تشخیص بدیم کی متن رو AI نوشته و کی آدم! البته مشکل این تشخیص اینه که بعضیها حسابی زرنگ شدن و با یه سری ترفند (که بهشون Adversarial Attacks میگن، یعنی حملات خرابکارانهای که هدفشون دور زدن سیستمهای تشخیصه) سعی میکنن ردی از خودشون نذارن. یکی از متداولترین ترفندها هم Paraphrasing یا همون بازنویسی هست؛ یعنی متن رو یه جوری عوض میکنن که اصل حرف همونه، ولی جملات فرق میکنه و سیستم گیر نمیندازه.
توی این مقاله، نویسندهها اومدن بررسی کنن که آیا سیستمهای فعلی واقعاً قدرت مقابله با این ترفندها رو دارن یا نه. اول رفتن سراغ یه روش سنتی که بهش میگن adversarial training؛ یعنی سیستم رو با مثالهای خرابکاریشده آموزش میدن تا مقاومتر بشه. اما طبق یافتهها، این روش فقط تا وقتی جواب میده که خرابکاریها سطحی باشه (مثلاً فقط توی ساختار جمله دست برده باشن – بهش میگن syntactic noise یعنی سر و صداهای دستوری!) ولی وقتی پارافرایزینگ پیشرفته و دقیق وارد میدون میشه (که معنای جمله رو حفظ میکنه ولی ظاهرش رو کاملاً تغییر میده – بهش میگن semantic attack یعنی حمله معنایی)، این مدلها کم میارن و تشخیصشون میاد پایین.
حالا مشکل دقیقاً اینجاست: وقتی حمله معنایی شکل میگیره، نرخ تشخیص درست (True Positive Rate یا همون TPR) توی سیستم سنتی، با این شرط که خطای مثبت کاذب حتی فقط ۱٪ باشه (False Positive Rate یا FPR)، یهویی نصف میشه و میاد رو ۴۸.۸٪. یعنی از هر دو تا متنی که باید درست شناسایی بشه، یکی اشتباهی رد میشه.
اما قضیه از اینجا جذاب میشه که نویسندهها یه روش جدید معرفی کردن به اسم PIFE (یعنی Perturbation-Invariant Feature Engineering – مهندسی ویژگی مقاوم نسبت به دستکاری). این روش باهوشانه، ابتدا میاد متن رو یه لایه نرمالایز و مرتب میکنه (مثلاً همه پارافرایزها رو تبدیل میکنه به یه نسخه استاندارد). بعد اندازه تغییرات بین متن ورودی و اون فرم استاندارد رو با یه سری معیارها مثل Levenshtein distance (این یه فاصلست که نشون میده چند تا تغییر لازمه تا یه متن تبدیل شه به متن دیگه) یا semantic similarity (یعنی میزان شباهت معنایی دو متن) حساب میکنه، و نتیجه رو میده به مدل تشخیصدهنده.
نکته قشنگ داستان اینجاست که PIFE حتی وقتی بدترین و حرفهایترین حملات روی متن انجام بشه، همچنان نرخ تشخیصش رو روی ۸۲.۶٪ نگه میداره، اونم همون شرایط سخت قبلی! یعنی تقریباً دو برابر روش سنتی. خلاصه اینکه مدل جدید باهوشتر کار میکنه: به جای اینکه فقط روی دادههای خرابکاری شده آموزش ببینه (مثل نسل قبل)، خودش تفاوتهای عجیب و غریب هر متن با ساختار اصلیشو پیدا و روش متمرکز میشه.
خلاصه اینکه اگه دغدغهتون اینه که بتونید تشخیص بدید یه متن رو آدم نوشته یا AI، این تحقیق میگه راه درست فقط آموزش دیدن روی مثالهای خرابکاری شده نیست! باید خود ساختار حمله رو مدلسازی کنید و بفهمید این متن چقدر با یه متن اصل فرق داره، از نظر ظاهر و مفهوم. در واقع این همون مسیریه که توی این جنگ بین خرابکارها و سیستمهای تشخیص، آیندهداره و به شما کمک میکنه همیشه یه قدم جلوتر باشید.
منبع: +