مقایسه مدل‌های هوش مصنوعی برای تشخیص احساسات: بزرگ‌تر همیشه بهتره؟

راستش رو بخوای، هوش مصنوعی‌های جدیدی که بهشون می‌گن LLM یا “مدل‌های زبانی بزرگ”—یعنی مدل‌هایی که کلی داده رو می‌گیرن و می‌تونن مثل آدم باهات حرف بزنن یا متن تولید کنن—خیلی دارن تو زندگی ما نقش بازی می‌کنن. مخصوصاً تو حوزه‌هایی مثل سلامت روان که موضوع حساسیه و نیاز به دقت زیادی داره.

خب، یسری دانشمند اومدن قدرت این مدل‌های زبانی بزرگ رو برای درک محتواهای احساسی و خطرناک بررسی کردن. مثلاً چیزایی که می‌تونه به سلامت روان آدم لطمه بزنه یا باید با احتیاط بررسی شه. البته اینم بگم: صندوقچه داده‌ای که استفاده کردن، حسابی توپ بوده! یعنی از ترکیب چندین دیتاست واقعی (بالای ۱۵ هزار نمونه) از موقعیت‌های واقعی و متن‌های نوشته‌شده توسط آدم‌ها ساخته شده. تازه، از ChatGPT هم کمک گرفتن تا سوال‌ها و سناریوهای احساسی بیشتری بسازن و مدل‌ها دستشون برای تمرین بیشتر باز باشه.

دو تا تست اصلی داشتن:
۱. سه‌تایی کردن محتواها: یعنی پست‌ها رو به سه دسته تقسیم کردن — امن، ناامن، یا مرزی/لب‌مرز (که معلوم نیست دقیقاً کدومه).
۲. دسته‌بندی چندبرچسبی: یعنی هر محتوا ممکنه یکی یا حتی چندتا از شش حالت خطر رو داشته باشه. سیستم باید این ریسک‌ها رو بتونه شناسایی کنه.

حالا سراغ مدل‌ها بریم! مدل LLaMA رو امتحان کردن — اینم یه نوع مدل زبانی بازمتن معروف بین هوش مصنوعی‌بازهاست. چهار نسخه با اندازه مختلفش رو گذاشتن توی تست: ۱ میلیارد پارامتر، ۳ میلیارد، ۸ میلیارد و ۷۰ میلیارد پارامتر. (پارامتر یعنی چیزی شبیه پیچ‌مهره‌های مغز این مدل‌ها که هر چی بیشتر باشه، معمولاً باهوش‌تره، اما سخت‌افزار قوی‌تری هم لازم داره!).

توی آزمایش، دو حالت متفاوت داشتن: حالت zero-shot یعنی بدون اینکه مدلُ آموزش بدن، فقط یه دفعه بهش مسئله می‌دن ببینه چیکار می‌کنه؛ حالت few-shot یعنی چندتا مثال بهش نشون می‌دن تا بهتر بفهمه ماجرا چیه.

نتایج چی شد؟ مدل‌های بزرگ‌تر، مخصوصاً اون ۷۰ میلیاردی‌ها، بدون آموزش خاص (zero-shot) حسابی خوب جواب دادن. تو کارای سخت‌تر و ریزبینانه‌تر هم بهتر بودن، مثلاً همین دسته‌بندی چندبرچسبی که باید از چند زاویه احساس و خطر رو بفهمن.

ولی نکته عجیب و جالب اینجا بود: یه مدل کوچیک‌تر، یعنی همون ۱ میلیاردی (که حتی روی گوشی هم شاید اجرا بشه!) رو با کمترین تنظیمات اضافی آموزش دادن (به این می‌گن fine-tuning که یعنی مدل رو با چندتا نمونه اضافه ریزتر می‌کنن)، دیدن تو خیلی از زیرگروه‌ها تقریباً اندازه مدل‌های گنده جواب داده! تازه، فقط کمتر از ۲ گیگ رم موقع جواب دادن لازم داشته، یعنی نیاز به سرور قوی و پرهزینه نیست.

نکته مهم این کار اینه که فهمیدن برای کارهایی مثل سلامت روان که بحث امنیت و حریم خصوصی مطرحه، لازم نیست حتماً سراغ مدل‌های غول‌آسا رفت. همین مدل‌های کوچیک رو هم می‌شه روی گوشی و لپ‌تاپ اجرا کرد تا بدون فرستادن اطلاعات شخصی به سرورهای اینترنتی، کاربرها رو راهنمایی کنن و مرزهای مکالمه امن رو بشناسن.

آخر سر، این پروژه نشون داد که ترکیب هوش مصنوعی‌های کوچیک با آموزش هوشمندانه و دیتای واقعی، نه فقط کاربردیه بلکه می‌تونه ایمن‌تر و حریم‌خصوصی‌پسندتر هم باشه. خلاصه، لازم نیست همیشه با توپ و تانک سراغ هوش مصنوعی برید، با تیرکمون هم بعضی وقتا می‌شه کارهای بزرگی کرد! 😉

منبع: +