جدیدترین روش تشخیص افسردگی با ترکیب داده‌ها توی فضای مخفی؛ از روش‌های سنتی بهتر جواب می‌ده!

اگه تا حالا به این فکر کردی که چطوری می‌شه مشکلات روانی مثل افسردگی یا اضطراب رو زودتر و دقیق‌تر تشخیص داد، بی‌معطلی باید بگم الان یه تحقیق جدید کلی سر و صدا کرده! داستان اینطوریه که محقق‌ها اومدن مدل‌های قدیمی پیش‌بینی افسردگی رو که اکثرشون فقط از یه جور داده (مثلا فقط داده‌ی اپلیکیشن، یا فقط اطلاعات پزشکی) یا حداکثر از روش‌های ساده‌ی ترکیب داده استفاده می‌کنن، با یه روش هوشمندانه‌تر مقایسه کردن.

حالا بذار واژه‌ها رو قاطی نکنیم! مدل‌های قدیمی معمولا یا تک‌داده‌ای (unimodal) بودن یا از early fusion استفاده می‌کردن؛ یعنی خیلی زود داده‌های مختلف رو با هم قاطی می‌کردن و بعد پیش‌بینی انجام می‌دادن. ولی مشکل اینه که اطلاعات خیلی پیچیده و چندوجهی هستن، مخصوصا توی داده‌های روانشناسی و سلامت روان.

تو این تحقیق، اومدن روشی به اسم latent space fusion رو امتحان کردن. حالا “latent space” یعنی یه فضای پنهان تو دل مدل که ویژگی‌های مهم داده‌ها رو به شکل خیلی خلاصه و هوشمندانه ترکیب می‌کنه. ترکیب داده توی این فضای مخفی (fusion تو latent space) باعث می‌شه مدل بتونه رابطه‌های پیچیده و پنهون بین داده‌ها رو بفهمه.

محقق‌ها داده‌های شاخی از مطالعه بالینی BRIGHTEN رو گرفتن و می‌خواستن با استفاده ازشون علائم روزانه افسردگی آدم‌ها رو پیش‌بینی کنن؛ اونم با معیار معروف PHQ-2 که به راحتی سطح افسردگی رو نشون می‌ده. این داده‌ها از انواع مختلف بودن: رفتارهای موبایلی (مثلاً چند ساعت گوشی استفاده کردن، چقدر قدم زدن و غیره)، اطلاعات جمعیتی (سن، جنسیت، و این تیپ چیزها)، و داده‌های بالینی (یعنی اطلاعات پزشکی مربوط به سلامتی).

برای مقایسه، یه مدل Random Forest (یه مدل یادگیری ماشین که درخت‌های تصمیم رو با هم ترکیب می‌کنه)، به سبک همون early fusionهای معروف، استفاده کردن. مدل برترشون که اسمشو گذاشتن Combined Model یا CM بود، از autoencoder (یه جور شبکه عصبی که سعی می‌کنه داده رو فشرده و خلاصه کنه) و یه شبکه عصبی دیگه برای پیش‌بینی نهایی استفاده کرد. یعنی اول هرکدوم از داده‌ها داخل یه مدل خودش خلاصه شد و بعد خلاصه‌ها رو با هم ترکیب کردن و نتیجه گرفتن.

نتیجه چی شد؟ مدل CM از همون اول تا آخر بهتر از Random Forest و حتی Linear Regression (یک مدل خیلی ساده خطی) عمل کرد. مثلا، معیار MSE (یعنی میانگین مربع خطاها، هرچی کمتر باشه یعنی پیش‌بینی بهتره) برای CM شد 0.4985، ولی برای Random Forest بیشتر بود: 0.5305. ضریب تعیین (R2، شاخصیه که نشون می‌ده مدل چقدر خوب می‌تونه داده رو توضیح بده و ۱ یعنی بی‌نقص) توی CM شد 0.4695 که بالاتر از Random Forest بود (اونم 0.4356 شد).

جالب اینجاست که مدل Random Forest یکم اوورفیت کرد. اوورفیت یعنی مدل دقیقاً فقط همون داده‌های آموزش رو حفظ می‌کنه و روی داده‌های جدید اونقدر خوب کار نمی‌کنه. ولی CM تونست با ثبات رو داده‌های آزمون هم خوب نتیجه بده و نشون داد می‌تونه خوب تعمیم بده به افراد جدید.

یک نکته مهم دیگه این بود که وقتی توی مدل CM همه انواع داده‌ها با هم ترکیب شدن، دقیقا بهترین عملکرد رو داشت. برعکس Random Forest که زیاد سودی از ترکیب داده‌ها نمی‌برد. یعنی ثابت شد که اگر بخواهیم توی داده‌های سلامت روان که خیلی پیچیده و چندلایه‌ان پیش‌بینی درست بگیرم، روش latent space fusion بهترین راهه چون رابطه‌های غیربدیهی و غیرخطی بین لایه‌های مختلف اطلاعات رو می‌فهمه (غیربدیهی یعنی رابطه‌هایی که برخلاف تصور اولیه و ساده ما هستن).

در آخر هم محقق‌ها تاکید کردن که این روش جدید یعنی latent space fusion، یه گزینه‌ی خیلی مطمئن و قوی برای تحلیل داده‌های چندوجهی سلامت روانه. البته قرار شد تو آینده روی توضیح‌پذیری مدل (یعنی اینکه بفهمیم دقیقاً مدل بر چه اساسی پیش‌بینی می‌کنه) و همینطور پیش‌بینی‌های فردبه‌فرد هم کار کنن تا بشه تو درمان بالینی واقعی استفاده کرد.

خلاصه، اگه دنبال پیشرفت‌های شگفت‌انگیز تو تشخیص زودهنگام افسردگی هستی، latent space fusion همون چیزیه که خیلی از مدل‌های قدیمی رو پشت سر گذاشته! خلاصه همه‌چیزو قاطی کن، ولی هوشمند، توی یه فضای مخفی!

منبع: +