نبرد ذهن‌ها: تحلیل کیفی با آدم‌ها یا هوش مصنوعی؟ توی تحقیقات سلامت روان کدومش بهتره؟

خب رفقا، امروز می‌خوام براتون درباره یه تحقیق جالب بگم که اومدن بررسی کردن وقتی می‌خوایم داده‌های متنی رو درباره تجربه‌های آدم‌ها تو حوزه سلامت روان تحلیل کنیم، بهتره از خود آدم‌های واقعی کمک بگیریم یا این مدل‌های جدید هوش مصنوعی مثل ChatGPT و هم‌خانواده‌هاش؟

اول بگم منظور از ‘تحلیل تماتیک’ یا همون ‘Thematic Analysis’ چیه. یه جور تحلیل داده‌ست که میان صحبت‌ها یا نوشته‌های شرکت‌کننده‌ها رو تیکه‌تیکه بررسی می‌کنن، روشون برچسب (کد) می‌زنن و سعی می‌کنن از دلش تم‌های اصلی (یعنی موضوعات مهم و پرتکرار) رو بکشن بیرون. خودِ این کار خیلی وقت و حوصله می‌بره و انجامش با دست (توسط محقق) واقعاً انرژی‌بره، مخصوصاً اگه دیتا زیاد باشه.

اینجا بود که بحث واردشدن ‘مدل‌های زبانی بزرگ’ یا همون LLMs شد. حالا LLM یعنی مدل کامپیوتری‌ای که می‌تونه متنو بفهمه و جواب بده، مثلاً همین چت‌بات‌هایی که حرف می‌زنن و هوش مصنوعی دارن. معروف‌ترین نمونه‌ش هم همون GPT-4o محصول OpenAI ـه که تحقیق هم روی همین انجام شده.

تو این تحقیق، اومدن داده‌هایی رو که از یه آزمایش درباره کاهش استرس کارکنان بخش سلامت جمع‌آوری شده بود، هم با آدم واقعی بررسی کردن هم با LLM. حتی روش کار LLM هم جالب بود: دو حالت درست کرده بودن، یکی اینکه فقط خود LLM رو بدون هیچ اطلاعات زمینه‌ای گذاشتن روی دیتا (بهش میگن Out-of-the-box)، یکی هم اینکه اطلاعات پایه و دانسته‌هایی رو به مدل تزریق کردن تا با به‌اصطلاح ‘knowledge-based’ یا مبتنی بر دانش قبلی کار کنه.

برای اینکه مقایسه درست باشه، هر روش (چه آدم‌ها، چه مدل‌های هوش مصنوعی) اول اومدن داده‌ها رو کدگذاری کردن، بعد دیدن بیشتر چه تم‌هایی درمیارن، رفتن سراغ اینکه برای یه عده محدود از شرکت‌کننده‌ها (۲۰ نفر)، بررسی کنن و نتایج رو با هم مقایسه کنن. حتی یه ابزار هم استفاده شده که اسمش Dedoose بوده (یه نرم‌افزار تحلیل داده‌های کیفی).

یه نکته بامزه هم این بود که برای کار با مدل GPT-4o از یه تکنیک خاص توی prompt دادن استفاده کردن به اسم RISEN. خب، RISEN یعنی: Role (نقش)، Instructions (دستورالعمل)، Steps (مراحل)، End-Goal (هدف نهایی)، Narrowing (محدودسازی). یعنی خیلی منظم و باجزییات وظیفه رو برای هوش مصنوعی باز کردن که بدون دقیقاً باید چیکار کنه.

حالا یه چیزی که معلوم شد این بود که هر دو مدل LLM تونستن کدهای اصلی (که بهشون میگن ‘parent codes’ یعنی دسته‌بندی‌های کلی) رو مثل آدم‌ها دربیارن. ولی توی پیدا کردن کدهای فرعی (بهشون میگن ‘child code’؛ یعنی زیرمجموعه‌های دقیق‌تر)، این آدم‌ها بودن که دقیق‌تر و با جزئیات بیشتر کار کردن. حتی تو سنتز کردن و جمع‌بندی تم‌ها هم انسان‌ها دست بالا رو داشتن، چون خیلی هنرمندانه‌تر تونستن حرف‌ها رو به هم ربط بدن و تم درست کنن.

یه نکته جالب دیگه: اون LLM که بر پایه دانش قبلی بود تونست با خوندن تعداد کمتری از متن‌ها به حالت ‘اشباع’ یا Saturation برسه (یعنی دیگه حرف جدیدی پیدا نکند). مثلاً برای مدل مبتنی بر دانش، بین ۱۰ تا ۱۵ متن کافی بود. مدل خام (بدون دانسته قبلی) بین ۱۵ تا ۲۰ و آدم‌ها باید تقریباً همه ۹۰ تا ۹۹ متن رو بررسی می‌کردن تا به این مرحله برسن!

توی شناسایی تیکه‌های مهم بحث هم LLM خام و آدم‌ها کارشون تقریباً برابر بود، ولی اون LLM دانا، تیکه‌های کمتری رو تونست پیدا کنه. از نظر تطابق بین خود مدل‌ها و آدم‌ها، یه معیار هست اسمش ‘Inter-rater Reliability’ (یعنی چقدر دو نفر/مدل تو جواب دادن نزدیک همن). اینجا شاخص Kappa شده ۰.۸۴ که عدد خوبیه و می‌گه تطابق قوی بوده.

از نظر کیفیت، باید بدونید که آدم‌ها هر تیکه رو هم بلندتر می‌دیدن، هم چند تا کد مختلف براش می‌زدن. ولی مدل‌های زبانی معمولاً فقط یه کد رو به یه تیکه از متن نسبت می‌دادن. یعنی آدم‌ها کارشون عمیق‌تر و با تنوع بیشتر بود.

در مجموع، نتیجه این تحقیق نشون داد که کار با LLMها خیلی به‌صرفه‌تر و ارزون‌تر می‌تونه باشه، ولی عمق و ظرافتی که یه آدم تو تحلیل کیفی می‌تونه بیاره، با هنوز هوش مصنوعی مساوی نشده. یعنی اگه یه تیمی بتونه هوش مصنوعی رو با نظارت انسانی قاطی کنه، پروژه‌های تحلیل کیفی تو سلامت روان و تحقیقات درمانی می‌تونن هم سریع‌تر پیش برن، هم دقت و نگاه انسانی رو حفظ کنن.

در کل، هوش مصنوعی تو این زمینه داره راهشو باز می‌کنه، اما مراقب باشیم جای آدم کاربلد رو صد درصد نگیریم؛ مخصوصاً وقتی پای سلامت روان آدم‌ها وسطه!

منبع: +