اگه تا حالا به این فکر کردی که چطوری میشه مشکلات روانی مثل افسردگی یا اضطراب رو زودتر و دقیقتر تشخیص داد، بیمعطلی باید بگم الان یه تحقیق جدید کلی سر و صدا کرده! داستان اینطوریه که محققها اومدن مدلهای قدیمی پیشبینی افسردگی رو که اکثرشون فقط از یه جور داده (مثلا فقط دادهی اپلیکیشن، یا فقط اطلاعات پزشکی) یا حداکثر از روشهای سادهی ترکیب داده استفاده میکنن، با یه روش هوشمندانهتر مقایسه کردن.
حالا بذار واژهها رو قاطی نکنیم! مدلهای قدیمی معمولا یا تکدادهای (unimodal) بودن یا از early fusion استفاده میکردن؛ یعنی خیلی زود دادههای مختلف رو با هم قاطی میکردن و بعد پیشبینی انجام میدادن. ولی مشکل اینه که اطلاعات خیلی پیچیده و چندوجهی هستن، مخصوصا توی دادههای روانشناسی و سلامت روان.
تو این تحقیق، اومدن روشی به اسم latent space fusion رو امتحان کردن. حالا “latent space” یعنی یه فضای پنهان تو دل مدل که ویژگیهای مهم دادهها رو به شکل خیلی خلاصه و هوشمندانه ترکیب میکنه. ترکیب داده توی این فضای مخفی (fusion تو latent space) باعث میشه مدل بتونه رابطههای پیچیده و پنهون بین دادهها رو بفهمه.
محققها دادههای شاخی از مطالعه بالینی BRIGHTEN رو گرفتن و میخواستن با استفاده ازشون علائم روزانه افسردگی آدمها رو پیشبینی کنن؛ اونم با معیار معروف PHQ-2 که به راحتی سطح افسردگی رو نشون میده. این دادهها از انواع مختلف بودن: رفتارهای موبایلی (مثلاً چند ساعت گوشی استفاده کردن، چقدر قدم زدن و غیره)، اطلاعات جمعیتی (سن، جنسیت، و این تیپ چیزها)، و دادههای بالینی (یعنی اطلاعات پزشکی مربوط به سلامتی).
برای مقایسه، یه مدل Random Forest (یه مدل یادگیری ماشین که درختهای تصمیم رو با هم ترکیب میکنه)، به سبک همون early fusionهای معروف، استفاده کردن. مدل برترشون که اسمشو گذاشتن Combined Model یا CM بود، از autoencoder (یه جور شبکه عصبی که سعی میکنه داده رو فشرده و خلاصه کنه) و یه شبکه عصبی دیگه برای پیشبینی نهایی استفاده کرد. یعنی اول هرکدوم از دادهها داخل یه مدل خودش خلاصه شد و بعد خلاصهها رو با هم ترکیب کردن و نتیجه گرفتن.
نتیجه چی شد؟ مدل CM از همون اول تا آخر بهتر از Random Forest و حتی Linear Regression (یک مدل خیلی ساده خطی) عمل کرد. مثلا، معیار MSE (یعنی میانگین مربع خطاها، هرچی کمتر باشه یعنی پیشبینی بهتره) برای CM شد 0.4985، ولی برای Random Forest بیشتر بود: 0.5305. ضریب تعیین (R2، شاخصیه که نشون میده مدل چقدر خوب میتونه داده رو توضیح بده و ۱ یعنی بینقص) توی CM شد 0.4695 که بالاتر از Random Forest بود (اونم 0.4356 شد).
جالب اینجاست که مدل Random Forest یکم اوورفیت کرد. اوورفیت یعنی مدل دقیقاً فقط همون دادههای آموزش رو حفظ میکنه و روی دادههای جدید اونقدر خوب کار نمیکنه. ولی CM تونست با ثبات رو دادههای آزمون هم خوب نتیجه بده و نشون داد میتونه خوب تعمیم بده به افراد جدید.
یک نکته مهم دیگه این بود که وقتی توی مدل CM همه انواع دادهها با هم ترکیب شدن، دقیقا بهترین عملکرد رو داشت. برعکس Random Forest که زیاد سودی از ترکیب دادهها نمیبرد. یعنی ثابت شد که اگر بخواهیم توی دادههای سلامت روان که خیلی پیچیده و چندلایهان پیشبینی درست بگیرم، روش latent space fusion بهترین راهه چون رابطههای غیربدیهی و غیرخطی بین لایههای مختلف اطلاعات رو میفهمه (غیربدیهی یعنی رابطههایی که برخلاف تصور اولیه و ساده ما هستن).
در آخر هم محققها تاکید کردن که این روش جدید یعنی latent space fusion، یه گزینهی خیلی مطمئن و قوی برای تحلیل دادههای چندوجهی سلامت روانه. البته قرار شد تو آینده روی توضیحپذیری مدل (یعنی اینکه بفهمیم دقیقاً مدل بر چه اساسی پیشبینی میکنه) و همینطور پیشبینیهای فردبهفرد هم کار کنن تا بشه تو درمان بالینی واقعی استفاده کرد.
خلاصه، اگه دنبال پیشرفتهای شگفتانگیز تو تشخیص زودهنگام افسردگی هستی، latent space fusion همون چیزیه که خیلی از مدلهای قدیمی رو پشت سر گذاشته! خلاصه همهچیزو قاطی کن، ولی هوشمند، توی یه فضای مخفی!
منبع: +