خب رفیق، حتما این روزا زیاد دیدی که متنهایی سر و کلهشون پیدا میشه که دیگه تشخیص دادن اینکه آدم نوشته یا یه هوش مصنوعی، واقعاً سخته شده. مخصوصاً با مدلهایی مثل ChatGPT که هرچی میره جلوتر، بهتر یاد میگیره متنی شبیه ما آدمها تولید کنه. این موضوع کلی سؤال و دغدغه به وجود آورده، مثل اینکه چجوری میشه فرق متنهای آدمیزاد رو با متنهای هوش مصنوعی فهمید یا به قول معروف، چطور میتونیم جلوی تقلب علمی یا پخش اطلاعات غلط رو بگیریم.
حالا تو این تحقیق، اومدن مدلهای مختلف یادگیری ماشین رو بررسی کردن ببینن کدومشون بهتر میتونن متنهای تولیدشده توسط ChatGPT 3.5 رو از متنهای واقعی دانشمندا تشخیص بدن. برای این تست، ۲۵۰ تا جفت خلاصه مقاله جمع کردن از موضوعات مختلف؛ یعنی هر بار یه خلاصه واقعی داشتن کنار یه خلاصهای که ChatGPT نوشته.
روشهایی که بررسی کردن دو دسته بودن: کلاسیک و بهروز. مدلهای کلاسیک مثل Logistic Regression (که یه مدل آماری برای پیشبینیه) اینجا با سه نوع فیچر مختلف استفاده شده: Bag-of-Words (شمردن اینکه هر کلمه چندبار اومده)، POS (یعنی برچسبزدن نقش دستوری به کلمات مثل فعل و اسم و…) و TF-IDF (یعنی یه روش برای فهمیدن ارزش هر کلمه تو یه متن خاص).
دسته دوم، مدلهای transformer-base بودن که جدیدترین و باحالترینا محسوب میشن واسه کار با متن. مثلاً:
- BERT: یه مدل خیلی معروف برای درک زبان
- DistilBERT: نسخه جمعوجورتر و سریعتر BERT
- LSTM based N-gram: مدلهایی که دنبالههای کلمات رو یاد میگیرن (LSTM یعنی یه مدل شبکه عصبی که به حافظه کوتاه/بلندمدت حساسه)
- و یه مدل BERT ترکیبشده با یه دسته فیچر جدید
این وسط یه ایده دیگه هم تست کردن: اینکه یه bمدل ترکیبی ساخته بشه که خروجی چندتا از بهترین مدلها رو با هم جمع ببنده (که بهش ensemble یا max voting میگن، یعنی رایگیری بین چند مدل برای انتخاب جواب نهایی).
نتیجهها جالب بود! مدل DistilBERT تونست بهترین نتیجه رو بگیره، یعنی خیلی خوب میفهمید که کدوم متن کار آدمه و کدوم کار هوش مصنوعی. مدل Logistic Regression معمولی و BERT با دسته فیچر جدید هم وقتی کنار DistilBERT قرار بگیرن، بد نبودن؛ اما LSTM و BERT با N-gram حسابی ضعیفتر عمل کردن.
از اون جالبتر اینکه اون مدل ترکیبی (max voting ensemble) که از رای سه تا بهترین مدل استفاده میکرد، نتوست DistilBERT رو شکست بده. این یعنی داشتن یه مدل قدرتمند مثل DistilBERT خیلی بهتر جواب میده تا اینکه فقط مدلای مختلف رو با هم قاطی کنیم. (Transformerها همون مدلایی هستن که ساختار خاصی برای کار با متن دارن و تو فهم ارتباط بین کلمات عالی عمل میکنن.)
در کل، این تحقیق نشون میده راه زیادی برای قویتر کردن تشخیص متنهای هوش مصنوعی داریم. باید دیتاستها بزرگتر و متنوعتر بشن و روشهای transformer-based بیشتر توسعه پیدا کنن تا بتونن با مدلهای تولید متن فوقپیشرفتهای که هر روز قویتر میشن، رقابت کنن.
خلاصه حرفم اینه: فعلا DistilBERT سلطان میدونه، اما اگه دنبال آینده باشیم، نیاز به راهحلهای بهتر و دیتای حسابی داریم تا گول مدلهای Generative AI (همون هوش مصنوعی تولیدکننده محتوا) رو نخوریم!
منبع: +