کدوم مدل‌ها تو تشخیص متن‌های تولیدشده با هوش مصنوعی بهترن؟ یه نگاه خودمونی به روش‌های معمولی و Transformerها

خب رفیق، حتما این روزا زیاد دیدی که متن‌هایی سر و کله‌شون پیدا میشه که دیگه تشخیص دادن اینکه آدم نوشته یا یه هوش مصنوعی، واقعاً سخته شده. مخصوصاً با مدل‌هایی مثل ChatGPT که هرچی میره جلوتر، بهتر یاد می‌گیره متنی شبیه ما آدم‌ها تولید کنه. این موضوع کلی سؤال و دغدغه به وجود آورده، مثل اینکه چجوری می‌شه فرق متن‌های آدمیزاد رو با متن‌های هوش مصنوعی فهمید یا به قول معروف، چطور می‌تونیم جلوی تقلب علمی یا پخش اطلاعات غلط رو بگیریم.

حالا تو این تحقیق، اومدن مدل‌های مختلف یادگیری ماشین رو بررسی کردن ببینن کدومشون بهتر می‌تونن متن‌های تولیدشده توسط ChatGPT 3.5 رو از متن‌های واقعی دانشمندا تشخیص بدن. برای این تست، ۲۵۰ تا جفت خلاصه مقاله جمع کردن از موضوعات مختلف؛ یعنی هر بار یه خلاصه واقعی داشتن کنار یه خلاصه‌ای که ChatGPT نوشته.

روش‌هایی که بررسی کردن دو دسته بودن: کلاسیک و به‌روز. مدل‌های کلاسیک مثل Logistic Regression (که یه مدل آماری برای پیش‌بینیه) اینجا با سه نوع فیچر مختلف استفاده شده: Bag-of-Words (شمردن اینکه هر کلمه چندبار اومده)، POS (یعنی برچسب‌زدن نقش دستوری به کلمات مثل فعل و اسم و…) و TF-IDF (یعنی یه روش برای فهمیدن ارزش هر کلمه تو یه متن خاص).

دسته دوم، مدل‌های transformer-base بودن که جدیدترین و باحال‌ترینا محسوب می‌شن واسه کار با متن. مثلاً:

BERT: یه مدل خیلی معروف برای درک زبان
DistilBERT: نسخه جمع‌وجورتر و سریع‌تر BERT
LSTM based N-gram: مدل‌هایی که دنباله‌های کلمات رو یاد می‌گیرن (LSTM یعنی یه مدل شبکه عصبی که به حافظه کوتاه/بلندمدت حساسه)
و یه مدل BERT ترکیب‌شده با یه دسته فیچر جدید

این وسط یه ایده دیگه هم تست کردن: اینکه یه bمدل ترکیبی ساخته بشه که خروجی چندتا از بهترین مدل‌ها رو با هم جمع ببنده (که بهش ensemble یا max voting می‌گن، یعنی رای‌گیری بین چند مدل برای انتخاب جواب نهایی).

نتیجه‌ها جالب بود! مدل DistilBERT تونست بهترین نتیجه رو بگیره، یعنی خیلی خوب می‌فهمید که کدوم متن کار آدمه و کدوم کار هوش مصنوعی. مدل Logistic Regression معمولی و BERT با دسته فیچر جدید هم وقتی کنار DistilBERT قرار بگیرن، بد نبودن؛ اما LSTM و BERT با N-gram حسابی ضعیف‌تر عمل کردن.

از اون جالب‌تر اینکه اون مدل ترکیبی (max voting ensemble) که از رای سه تا بهترین مدل استفاده می‌کرد، نتوست DistilBERT رو شکست بده. این یعنی داشتن یه مدل قدرتمند مثل DistilBERT خیلی بهتر جواب می‌ده تا اینکه فقط مدلای مختلف رو با هم قاطی کنیم. (Transformerها همون مدلایی هستن که ساختار خاصی برای کار با متن دارن و تو فهم ارتباط بین کلمات عالی عمل می‌کنن.)

در کل، این تحقیق نشون می‌ده راه زیادی برای قوی‌تر کردن تشخیص متن‌های هوش مصنوعی داریم. باید دیتاست‌ها بزرگ‌تر و متنوع‌تر بشن و روش‌های transformer-based بیشتر توسعه پیدا کنن تا بتونن با مدل‌های تولید متن فوق‌پیشرفته‌ای که هر روز قوی‌تر می‌شن، رقابت کنن.

خلاصه حرفم اینه: فعلا DistilBERT سلطان میدونه، اما اگه دنبال آینده باشیم، نیاز به راه‌حل‌های بهتر و دیتای حسابی داریم تا گول مدل‌های Generative AI (همون هوش مصنوعی تولیدکننده محتوا) رو نخوریم!

منبع: +