خب، بذار همین اول بهت بگم که تشخیص مشکلات سلامت روان خصوصاً افسردگی، همیشه کار سادهای نبوده. حتی وقتی خود آدمها میان و توی پرسشنامههای روانشناسی جواب میدن، باز هم خطا و اشتباه پیش میاد. چون خیلی چیزها هست که باعث میشه طرف یا درست حرفاش رو نزنه یا احساساتش رو درست بیان نکنه! خود این پرسشنامهها رو هم بهشون میگن ‘Self-report’ یعنی هر کسی از خودش گزارش میده و جواب میده.
حالا فناوری کار رو خیلی جذابتر کرده! چند سالیه که یه چیزهایی اومده به اسم مدلهای زبانی بزرگ یا Large Language Models (LLMs)؛ مثلاً همون ChatGPT یا Gemini و… — اینا الگوریتمهایی هستن که میتونن با خوندن متنها، معنی و مفهومها رو بفهمن و حتی جواب بدن و پیشبینی کنن. مثلاً میتونی بهشون یه متن بدی، برات تحلیل کنن که نویسنده ناراحته یا نه!
یکی از راهحلهای جدید که تازگی حسابی سر و صدا کرده، استفاده از همین LLMهاست برای غربالگری و تشخیص افسردگی؛ یعنی این که مدلهای هوش مصنوعی بیان از رو متنی که یه نفر تو مصاحبه یا پرسشنامه نوشته، بفهمن که آدم افسرده هست یا نیست! تازه به این کار میگن «Zero-shot learning» یعنی مدلها بدون اینکه آموزش خاصی تو اون موقعیت خاص دیده باشن، سعی میکنن کار رو درست انجام بدن (یعنی یه جور آزمون و خطای هوشمندانه).
تو یه پروژه جالب، محققها اومدن دیتاستی به اسم DAIC-WOZ رو استفاده کردن – این دیتاست همونیه که توش کلی داده متنی از مصاحبههای روانشناسی و پرسشنامههای خوداظهاری آدمها که وضعیت سلامت روانشون هم روشون برچسب خورده، وجود داره.
برای اینکه مدلها رو تست کنن، یه چارچوب جدید به اسم RISEN prompt engineering framework رو به کار بردن. (یعنی یه جور فرایندی که با طراحی هوشمند جملهها و سوالا، مدل هوش مصنوعی رو هدایت میکنه تا جوابای درست بده!)
حالا اصل داستان اینجاست، چند تا از معروفترین مدلهای دنیا رو با هم مقایسه کردن: GPT (همون مدلهای OpenAI که میشناسی)، Llama3_8B (اینم یکی از مدلهای متنی غولپیکره)، Cohere و Gemini. اومدن و کارایی این مدلها رو تو پیشبینی تکتک سوالهای مقیاس PHQ-8 (یه پرسشنامه معروف برای سنجش افسردگی که ۸ تا سوال داره، مثلا درباره انرژی، انگیزه و خلق و خو) بررسی کردن.
جواب چی شد؟ مدلهای GPT مخصوصاً GPT-4o، تو همهی ۸ بخش این پرسشنامه، نسبت به بقیه مدلها دقت و امتیاز بالاتری داشتن. مثلاً میانگین دقتشون شده ۷۵.۹ درصد و امتیاز F1 (که یه جور معیار برای اندازهگیری کیفیت مدلهاست) ۰.۷۴ بوده. یعنی با خوندن متن، تونستن درست پیشبینی کنن طرف چه احساسی داره یا آیا نشانه افسردگی توش هست یا نه.
نکته جالب اینه که هر مدل واسه یه چیز خاص خوب بوده: Llama3_8B برای علائم بیلذتی یا همون anhedonia (یعنی وقتی آدم دیگه از کارایی که قبلاً لذت میبرده دلسرد میشه)، مطابق انتظار عالی عمل کرد؛ Cohere توی تشخیص علائم مربوط به فعالیتهای حرکتی و بدنی آدمها (یعنی وقتی مثلاً کندی حرکتی یا بیقراری دیده میشه) خیلی قوی ظاهر شد.
این مطالعه نشون داد که میشه واقعاً از هوش مصنوعی انتظار داشت که تو تشخیص اولیه افسردگی، کمکدست روانشناسها باشه. یعنی فقط با متن حرفهای طرف، میتونه سطح افسردگیش رو تخمین بزنه! البته این فقط آغاز راهه و باید کلی تحقیق دیگه روی دیتاستهای بیشتری انجام شه و این مدلها رو برای هر دسته علائم مخصوص ریزتر تنظیم کنن.
در کل، این روشها و الگوریتمهای جدید دارن نشون میدن که احتمالاً ظرف چند سال آینده، نه فقط افسردگی، که حتی کلی مشکل سلامت روانی دیگه هم، خیلی سریعتر و راحتتر قابل شناسایی میشن. خلاصه هوش مصنوعی داره پا به دنیای سلامت روان میذاره و آیندهاش حسابی هیجانانگیزه!
منبع: +