خب بذارید براتون یه کماسمونی درباره یه موضوع خیلی داغ و جالب بگم: استفاده از هوش مصنوعی برای تشخیص افسردگی از روی صحبتهای آدمها. میدونم شاید تا حالا اسمش رو شنیده باشید. تا الان کلی مدل هوش مصنوعی، مخصوصاً شبکههای عصبی عمیق (DNNها، یعنی همون مدلهایی که مثل مغز ما میتونن یه عالمه داده رو پردازش کنن)، تلاش کردن رَدِ افسردگی رو در لحن و واژههای مردم پیدا کنن. ولی با وجود پیشرفت زیادشون، هنوز هم اونقدر که انتظار داشتیم توی دنیای واقعی دقیق عمل نمیکنن.
حالا مدلهای زبانی بزرگ (LLMs، یعنی مدلهایی مثل ChatGPT یا GPT-4 که یه عالمه متن خوندن و میتونن کلی چیز بفهمن) هم وارد این بازی شدن و امید زیادی بهشونه. ولی یه مشکلی دارن: باید توی زمینه خود افسردگی، اطلاعات مخصوص یاد بگیرن (اسمش رو گذاشتن domain-specific fine-tuning یعنی مدل آموزش ببیند مخصوص همون موضوع) و این مدلها معمولاً فقط روی متن دقیقن، در حالی که افسردگی همیشه با واژهها نشون داده نمیشه. واقعاً خیلی وقتها آدم افسرده فقط از روی لحن صداش یا رفتارش قابل شناساییه، نه اینکه حتماً توی حرفهاش بگه من افسردگی دارم.
تازه این هم هست که اگه یه کم دانش روانشناسی وارد ماجرا نشه، دقت تشخیص افسردگی بازم پایین میاد. یعنی فقط داده و هوش مصنوعی کافی نیست، حتماً باید از اطلاعات تخصصی روانشناسی استفاده بشه.
اینجاست که نویسندههای این تحقیق دست به یه ابتکار جالب زدن: اونا اولین گروهی بودن که (تا جایی که خودشون خبر دارن!) اومدن مدلهای زبانی بزرگ رو برای تشخیص چندوجهی افسردگی (یعنی ترکیب اطلاعات صوتی و متنی همزمان) به کار گرفتن. برای این کار از دیتاست DAIC-WOZ استفاده کردن؛ یه مجموعه داده که مکالمههای واقعی با آدمهای مختلف رو شامل میشه و برای مطالعات روانشناسی ساخته شده.
روش کارشون اینطوری بوده: اول با مدل پیشآموزشدیده Wav2Vec (یه مدل که صدای آدمها رو میگیره و اطلاعات ظریفی ازش استخراج میکنه)، ویژگیهای صوتی رو درمیارن و تبدیل میکنن به چیزی که مدلهای زبانی مثل LLM بتونه باهاش کار کنه. یعنی فقط به متن حرفا اکتفا نمیکنن، بلکه میفهمن که لحن صدا هم داده مهمیه.
بعدش یه کار خلاقانه دیگه انجام دادن: واسه اینکه دانش روانشناسی وارد مدل بشه، یه مجموعه سؤال و جواب درست کردن (شبیه همون پرسش و پاسخهایی که تو تستهای روانشناسی هست)، بعد اینا رو به LLMها دادن تا انگار یه مشاور با تجربه داره کمکشون میکنه. اینطوری مدل نه فقط خشک و ماشینی، بلکه با حال و هوای انسانیتر سراغ تشخیص میره.
نتیجه چی شد؟ مدلشون تونست توی شاخص دقت مثل MAE (میانگین خطای مطلق – یعنی مدل چقدر حدوداً خطا داره) و RMSE (ریشه دوم میانگین مربع خطاها – یه معیار دیگه برای فرق واقعیت و پیشبینی) بهشدت بهتر از روشهای قبلی عمل کنه! یعنی نسبت به نمره پایهای که تو مقالههای قبلی گفته بودن، خیلی رشد داشته.
اگر دلتون میخواد خودتون کدها رو ببینید و امتحان کنید، توی گیتهاب منتشر کردن. خلاصه اینکه کمکم داره میرسیم به جایی که هوش مصنوعی با کمک روانشناسی، حتی از روی مکالمهها و لحن صدامون هم میتونه حال روحیمونو تشخیص بده! واقعاً جهان داره جالبتر و هوشمندتر میشه…
منبع: +