هوش مصنوعی به کمک غربال‌گری افسردگی میاد؛ داستان مدل‌های زبانی بزرگ

خب، بذار همین اول بهت بگم که تشخیص مشکلات سلامت روان خصوصاً افسردگی، همیشه کار ساده‌ای نبوده. حتی وقتی خود آدم‌ها میان و توی پرسش‌نامه‌های روان‌شناسی جواب میدن، باز هم خطا و اشتباه پیش میاد. چون خیلی چیزها هست که باعث میشه طرف یا درست حرفاش رو نزنه یا احساساتش رو درست بیان نکنه! خود این پرسش‌نامه‌ها رو هم بهشون میگن ‘Self-report’ یعنی هر کسی از خودش گزارش میده و جواب میده.

حالا فناوری کار رو خیلی جذاب‌تر کرده! چند سالیه که یه چیزهایی اومده به اسم مدل‌های زبانی بزرگ یا Large Language Models (LLMs)؛ مثلاً همون ChatGPT یا Gemini و… — اینا الگوریتم‌هایی هستن که می‌تونن با خوندن متن‌ها، معنی و مفهوم‌ها رو بفهمن و حتی جواب بدن و پیش‌بینی کنن. مثلاً می‌تونی بهشون یه متن بدی، برات تحلیل کنن که نویسنده ناراحته یا نه!

یکی از راه‌حل‌های جدید که تازگی حسابی سر و صدا کرده، استفاده از همین LLMهاست برای غربال‌گری و تشخیص افسردگی؛ یعنی این که مدل‌های هوش مصنوعی بیان از رو متنی که یه نفر تو مصاحبه یا پرسش‌نامه نوشته، بفهمن که آدم افسرده هست یا نیست! تازه به این کار میگن «Zero-shot learning» یعنی مدل‌ها بدون اینکه آموزش خاصی تو اون موقعیت خاص دیده باشن، سعی می‌کنن کار رو درست انجام بدن (یعنی یه جور آزمون و خطای هوشمندانه).

تو یه پروژه جالب، محقق‌ها اومدن دیتاستی به اسم DAIC-WOZ رو استفاده کردن – این دیتاست همونیه که توش کلی داده متنی از مصاحبه‌های روان‌شناسی و پرسش‌نامه‌های خوداظهاری آدم‌ها که وضعیت سلامت روانشون هم روشون برچسب خورده، وجود داره.

برای اینکه مدل‌ها رو تست کنن، یه چارچوب جدید به اسم RISEN prompt engineering framework رو به کار بردن. (یعنی یه جور فرایندی که با طراحی هوشمند جمله‌ها و سوالا، مدل هوش مصنوعی رو هدایت می‌کنه تا جوابای درست بده!)

حالا اصل داستان اینجاست، چند تا از معروف‌ترین مدل‌های دنیا رو با هم مقایسه کردن: GPT (همون مدل‌های OpenAI که می‌شناسی)، Llama3_8B (اینم یکی از مدل‌های متنی غول‌پیکره)، Cohere و Gemini. اومدن و کارایی این مدل‌ها رو تو پیش‌بینی تک‌تک سوال‌های مقیاس PHQ-8 (یه پرسش‌نامه معروف برای سنجش افسردگی که ۸ تا سوال داره، مثلا درباره انرژی، انگیزه و خلق و خو) بررسی کردن.

جواب چی شد؟ مدل‌های GPT مخصوصاً GPT-4o، تو همه‌ی ۸ بخش این پرسش‌نامه، نسبت به بقیه مدل‌ها دقت و امتیاز بالاتری داشتن. مثلاً میانگین دقتشون شده ۷۵.۹ درصد و امتیاز F1 (که یه جور معیار برای اندازه‌گیری کیفیت مدل‌هاست) ۰.۷۴ بوده. یعنی با خوندن متن، تونستن درست پیش‌بینی کنن طرف چه احساسی داره یا آیا نشانه افسردگی توش هست یا نه.

نکته جالب اینه که هر مدل واسه یه چیز خاص خوب بوده: Llama3_8B برای علائم بی‌لذتی یا همون anhedonia (یعنی وقتی آدم دیگه از کارایی که قبلاً لذت می‌برده دل‌سرد میشه)، مطابق انتظار عالی عمل کرد؛ Cohere توی تشخیص علائم مربوط به فعالیت‌های حرکتی و بدنی آدم‌ها (یعنی وقتی مثلاً کندی حرکتی یا بی‌قراری دیده میشه) خیلی قوی ظاهر شد.

این مطالعه نشون داد که میشه واقعاً از هوش مصنوعی انتظار داشت که تو تشخیص اولیه افسردگی، کمک‌دست روان‌شناس‌ها باشه. یعنی فقط با متن حرف‌های طرف، می‌تونه سطح افسردگیش رو تخمین بزنه! البته این فقط آغاز راهه و باید کلی تحقیق دیگه روی دیتاست‌های بیشتری انجام شه و این مدل‌ها رو برای هر دسته علائم مخصوص ریزتر تنظیم کنن.

در کل، این روش‌ها و الگوریتم‌های جدید دارن نشون میدن که احتمالاً ظرف چند سال آینده، نه فقط افسردگی، که حتی کلی مشکل سلامت روانی دیگه هم، خیلی سریع‌تر و راحت‌تر قابل شناسایی میشن. خلاصه هوش مصنوعی داره پا به دنیای سلامت روان می‌ذاره و آینده‌اش حسابی هیجان‌انگیزه!

منبع: +