چطور مدل‌های زبانی بزرگ می‌تونن افسردگی رو از حرفای آدم‌ها تشخیص بدن؟ (با ترکیب دانش روانشناسی!)

خب بذارید براتون یه کماسمونی درباره یه موضوع خیلی داغ و جالب بگم: استفاده از هوش مصنوعی برای تشخیص افسردگی از روی صحبت‌های آدم‌ها. می‌دونم شاید تا حالا اسمش رو شنیده باشید. تا الان کلی مدل هوش مصنوعی، مخصوصاً شبکه‌های عصبی عمیق (DNNها، یعنی همون مدل‌هایی که مثل مغز ما می‌تونن یه عالمه داده رو پردازش کنن)، تلاش کردن رَدِ افسردگی رو در لحن و واژه‌های مردم پیدا کنن. ولی با وجود پیشرفت زیادشون، هنوز هم اون‌قدر که انتظار داشتیم توی دنیای واقعی دقیق عمل نمی‌کنن.

حالا مدل‌های زبانی بزرگ (LLMs، یعنی مدل‌هایی مثل ChatGPT یا GPT-4 که یه عالمه متن خوندن و می‌تونن کلی چیز بفهمن) هم وارد این بازی شدن و امید زیادی بهشونه. ولی یه مشکلی دارن: باید توی زمینه خود افسردگی، اطلاعات مخصوص یاد بگیرن (اسمش رو گذاشتن domain-specific fine-tuning یعنی مدل آموزش ببیند مخصوص همون موضوع) و این مدل‌ها معمولاً فقط روی متن دقیقن، در حالی که افسردگی همیشه با واژه‌ها نشون داده نمی‌شه. واقعاً خیلی وقت‌ها آدم افسرده فقط از روی لحن صداش یا رفتارش قابل شناساییه، نه اینکه حتماً توی حرف‌هاش بگه من افسردگی دارم.

تازه این هم هست که اگه یه کم دانش روانشناسی وارد ماجرا نشه، دقت تشخیص افسردگی بازم پایین میاد. یعنی فقط داده و هوش مصنوعی کافی نیست، حتماً باید از اطلاعات تخصصی روانشناسی استفاده بشه.

اینجاست که نویسنده‌های این تحقیق دست به یه ابتکار جالب زدن: اونا اولین گروهی بودن که (تا جایی که خودشون خبر دارن!) اومدن مدل‌های زبانی بزرگ رو برای تشخیص چندوجهی افسردگی (یعنی ترکیب اطلاعات صوتی و متنی همزمان) به کار گرفتن. برای این کار از دیتاست DAIC-WOZ استفاده کردن؛ یه مجموعه داده که مکالمه‌های واقعی با آدم‌های مختلف رو شامل می‌شه و برای مطالعات روانشناسی ساخته شده.

روش کارشون اینطوری بوده: اول با مدل پیش‌آموزش‌دیده Wav2Vec (یه مدل که صدای آدم‌ها رو می‌گیره و اطلاعات ظریفی ازش استخراج می‌کنه)، ویژگی‌های صوتی رو درمیارن و تبدیل می‌کنن به چیزی که مدل‌های زبانی مثل LLM بتونه باهاش کار کنه. یعنی فقط به متن حرفا اکتفا نمی‌کنن، بلکه می‌فهمن که لحن صدا هم داده مهمیه.

بعدش یه کار خلاقانه دیگه انجام دادن: واسه اینکه دانش روانشناسی وارد مدل بشه، یه مجموعه سؤال و جواب درست کردن (شبیه همون پرسش‌ و پاسخ‌هایی که تو تست‌های روانشناسی هست)، بعد اینا رو به LLMها دادن تا انگار یه مشاور با تجربه داره کمکشون می‌کنه. اینطوری مدل نه فقط خشک و ماشینی، بلکه با حال و هوای انسانی‌تر سراغ تشخیص می‌ره.

نتیجه چی شد؟ مدلشون تونست توی شاخص دقت مثل MAE (میانگین خطای مطلق – یعنی مدل چقدر حدوداً خطا داره) و RMSE (ریشه دوم میانگین مربع خطاها – یه معیار دیگه برای فرق واقعیت و پیش‌بینی) به‌شدت بهتر از روش‌های قبلی عمل کنه! یعنی نسبت به نمره پایه‌ای که تو مقاله‌های قبلی گفته بودن، خیلی رشد داشته.

اگر دلتون می‌خواد خودتون کدها رو ببینید و امتحان کنید، توی گیت‌هاب منتشر کردن. خلاصه اینکه کم‌کم داره میرسیم به جایی که هوش مصنوعی با کمک روانشناسی، حتی از روی مکالمه‌ها و لحن صدامون هم می‌تونه حال روحی‌مونو تشخیص بده! واقعاً جهان داره جالب‌تر و هوشمندتر میشه…

منبع: +