چجوری دست هوش مصنوعی رو رو کنیم؟ یه روش خفن برای شناسایی متن‌های تولیدشده توسط AI

Fall Back

حتماً براتون پیش اومده که یه متنی بخونید و با خودتون فکر کنید: «این رو واقعاً یه آدم نوشته یا دست یه هوش مصنوعی پشتشه؟» مخصوصاً با این هوش‌های مصنوعی خیلی پیشرفته که اسمشون Large Language Models (LLM) ـه، مثلاً همون ChatGPT یا مدل‌های مشابه. LLM یعنی یه مدل خیلی بزرگ و خفن که می‌تونه مثل انسان‌ها با زبان کار کنه و متن بنویسه.

حالا مشکل اینجاست که این مدل‌ها می‌تونن حسابی سواستفاده بشن. پس نیاز داریم بتونیم تشخیص بدیم کی متن رو AI نوشته و کی آدم‌! البته مشکل این تشخیص اینه که بعضی‌ها حسابی زرنگ شدن و با یه سری ترفند (که بهشون Adversarial Attacks میگن، یعنی حملات خرابکارانه‌ای که هدفشون دور زدن سیستم‌های تشخیصه) سعی می‌کنن ردی از خودشون نذارن. یکی از متداول‌ترین ترفندها هم Paraphrasing یا همون بازنویسی هست؛ یعنی متن رو یه جوری عوض می‌کنن که اصل حرف همونه، ولی جملات فرق می‌کنه و سیستم گیر نمی‌ندازه.

توی این مقاله، نویسنده‌ها اومدن بررسی کنن که آیا سیستم‌های فعلی واقعاً قدرت مقابله با این ترفندها رو دارن یا نه. اول رفتن سراغ یه روش سنتی که بهش میگن adversarial training؛ یعنی سیستم رو با مثال‌های خرابکاری‌شده آموزش می‌دن تا مقاوم‌تر بشه. اما طبق یافته‌ها، این روش فقط تا وقتی جواب می‌ده که خرابکاری‌ها سطحی باشه (مثلاً فقط توی ساختار جمله دست برده باشن – بهش میگن syntactic noise یعنی سر و صداهای دستوری!) ولی وقتی پارافرایزینگ پیشرفته و دقیق وارد میدون می‌شه (که معنای جمله رو حفظ می‌کنه ولی ظاهرش رو کاملاً تغییر می‌ده – بهش میگن semantic attack یعنی حمله معنایی)، این مدل‌ها کم میارن و تشخیص‌شون میاد پایین.

حالا مشکل دقیقاً اینجاست: وقتی حمله معنایی شکل می‌گیره، نرخ تشخیص درست (True Positive Rate یا همون TPR) توی سیستم سنتی، با این شرط که خطای مثبت کاذب حتی فقط ۱٪ باشه (False Positive Rate یا FPR)، یهویی نصف می‌شه و میاد رو ۴۸.۸٪. یعنی از هر دو تا متنی که باید درست شناسایی بشه، یکی اشتباهی رد می‌شه.

اما قضیه از اینجا جذاب می‌شه که نویسنده‌ها یه روش جدید معرفی کردن به اسم PIFE (یعنی Perturbation-Invariant Feature Engineering – مهندسی ویژگی مقاوم نسبت به دستکاری). این روش باهوشانه، ابتدا میاد متن رو یه لایه نرمالایز و مرتب می‌کنه (مثلاً همه پارافرایزها رو تبدیل می‌کنه به یه نسخه استاندارد). بعد اندازه تغییرات بین متن ورودی و اون فرم استاندارد رو با یه سری معیارها مثل Levenshtein distance (این یه فاصلست که نشون می‌ده چند تا تغییر لازمه تا یه متن تبدیل شه به متن دیگه) یا semantic similarity (یعنی میزان شباهت معنایی دو متن) حساب می‌کنه، و نتیجه رو می‌ده به مدل تشخیص‌دهنده.

نکته قشنگ داستان اینجاست که PIFE حتی وقتی بدترین و حرفه‌ای‌ترین حملات روی متن انجام بشه، همچنان نرخ تشخیصش رو روی ۸۲.۶٪ نگه می‌داره، اونم همون شرایط سخت قبلی! یعنی تقریباً دو برابر روش سنتی. خلاصه اینکه مدل جدید باهوش‌تر کار می‌کنه: به جای اینکه فقط روی داده‌های خرابکاری شده آموزش ببینه (مثل نسل قبل)، خودش تفاوت‌های عجیب و غریب هر متن با ساختار اصلیشو پیدا و روش متمرکز می‌شه.

خلاصه اینکه اگه دغدغه‌تون اینه که بتونید تشخیص بدید یه متن رو آدم نوشته یا AI، این تحقیق می‌گه راه درست فقط آموزش دیدن روی مثال‌های خرابکاری شده نیست! باید خود ساختار حمله رو مدلسازی کنید و بفهمید این متن چقدر با یه متن اصل فرق داره، از نظر ظاهر و مفهوم. در واقع این همون مسیریه که توی این جنگ بین خرابکارها و سیستم‌های تشخیص، آینده‌داره و به شما کمک می‌کنه همیشه یه قدم جلوتر باشید.

منبع: +