خب رفقا، امروز میخوام براتون درباره یه تحقیق جالب بگم که اومدن بررسی کردن وقتی میخوایم دادههای متنی رو درباره تجربههای آدمها تو حوزه سلامت روان تحلیل کنیم، بهتره از خود آدمهای واقعی کمک بگیریم یا این مدلهای جدید هوش مصنوعی مثل ChatGPT و همخانوادههاش؟
اول بگم منظور از ‘تحلیل تماتیک’ یا همون ‘Thematic Analysis’ چیه. یه جور تحلیل دادهست که میان صحبتها یا نوشتههای شرکتکنندهها رو تیکهتیکه بررسی میکنن، روشون برچسب (کد) میزنن و سعی میکنن از دلش تمهای اصلی (یعنی موضوعات مهم و پرتکرار) رو بکشن بیرون. خودِ این کار خیلی وقت و حوصله میبره و انجامش با دست (توسط محقق) واقعاً انرژیبره، مخصوصاً اگه دیتا زیاد باشه.
اینجا بود که بحث واردشدن ‘مدلهای زبانی بزرگ’ یا همون LLMs شد. حالا LLM یعنی مدل کامپیوتریای که میتونه متنو بفهمه و جواب بده، مثلاً همین چتباتهایی که حرف میزنن و هوش مصنوعی دارن. معروفترین نمونهش هم همون GPT-4o محصول OpenAI ـه که تحقیق هم روی همین انجام شده.
تو این تحقیق، اومدن دادههایی رو که از یه آزمایش درباره کاهش استرس کارکنان بخش سلامت جمعآوری شده بود، هم با آدم واقعی بررسی کردن هم با LLM. حتی روش کار LLM هم جالب بود: دو حالت درست کرده بودن، یکی اینکه فقط خود LLM رو بدون هیچ اطلاعات زمینهای گذاشتن روی دیتا (بهش میگن Out-of-the-box)، یکی هم اینکه اطلاعات پایه و دانستههایی رو به مدل تزریق کردن تا با بهاصطلاح ‘knowledge-based’ یا مبتنی بر دانش قبلی کار کنه.
برای اینکه مقایسه درست باشه، هر روش (چه آدمها، چه مدلهای هوش مصنوعی) اول اومدن دادهها رو کدگذاری کردن، بعد دیدن بیشتر چه تمهایی درمیارن، رفتن سراغ اینکه برای یه عده محدود از شرکتکنندهها (۲۰ نفر)، بررسی کنن و نتایج رو با هم مقایسه کنن. حتی یه ابزار هم استفاده شده که اسمش Dedoose بوده (یه نرمافزار تحلیل دادههای کیفی).
یه نکته بامزه هم این بود که برای کار با مدل GPT-4o از یه تکنیک خاص توی prompt دادن استفاده کردن به اسم RISEN. خب، RISEN یعنی: Role (نقش)، Instructions (دستورالعمل)، Steps (مراحل)، End-Goal (هدف نهایی)، Narrowing (محدودسازی). یعنی خیلی منظم و باجزییات وظیفه رو برای هوش مصنوعی باز کردن که بدون دقیقاً باید چیکار کنه.
حالا یه چیزی که معلوم شد این بود که هر دو مدل LLM تونستن کدهای اصلی (که بهشون میگن ‘parent codes’ یعنی دستهبندیهای کلی) رو مثل آدمها دربیارن. ولی توی پیدا کردن کدهای فرعی (بهشون میگن ‘child code’؛ یعنی زیرمجموعههای دقیقتر)، این آدمها بودن که دقیقتر و با جزئیات بیشتر کار کردن. حتی تو سنتز کردن و جمعبندی تمها هم انسانها دست بالا رو داشتن، چون خیلی هنرمندانهتر تونستن حرفها رو به هم ربط بدن و تم درست کنن.
یه نکته جالب دیگه: اون LLM که بر پایه دانش قبلی بود تونست با خوندن تعداد کمتری از متنها به حالت ‘اشباع’ یا Saturation برسه (یعنی دیگه حرف جدیدی پیدا نکند). مثلاً برای مدل مبتنی بر دانش، بین ۱۰ تا ۱۵ متن کافی بود. مدل خام (بدون دانسته قبلی) بین ۱۵ تا ۲۰ و آدمها باید تقریباً همه ۹۰ تا ۹۹ متن رو بررسی میکردن تا به این مرحله برسن!
توی شناسایی تیکههای مهم بحث هم LLM خام و آدمها کارشون تقریباً برابر بود، ولی اون LLM دانا، تیکههای کمتری رو تونست پیدا کنه. از نظر تطابق بین خود مدلها و آدمها، یه معیار هست اسمش ‘Inter-rater Reliability’ (یعنی چقدر دو نفر/مدل تو جواب دادن نزدیک همن). اینجا شاخص Kappa شده ۰.۸۴ که عدد خوبیه و میگه تطابق قوی بوده.
از نظر کیفیت، باید بدونید که آدمها هر تیکه رو هم بلندتر میدیدن، هم چند تا کد مختلف براش میزدن. ولی مدلهای زبانی معمولاً فقط یه کد رو به یه تیکه از متن نسبت میدادن. یعنی آدمها کارشون عمیقتر و با تنوع بیشتر بود.
در مجموع، نتیجه این تحقیق نشون داد که کار با LLMها خیلی بهصرفهتر و ارزونتر میتونه باشه، ولی عمق و ظرافتی که یه آدم تو تحلیل کیفی میتونه بیاره، با هنوز هوش مصنوعی مساوی نشده. یعنی اگه یه تیمی بتونه هوش مصنوعی رو با نظارت انسانی قاطی کنه، پروژههای تحلیل کیفی تو سلامت روان و تحقیقات درمانی میتونن هم سریعتر پیش برن، هم دقت و نگاه انسانی رو حفظ کنن.
در کل، هوش مصنوعی تو این زمینه داره راهشو باز میکنه، اما مراقب باشیم جای آدم کاربلد رو صد درصد نگیریم؛ مخصوصاً وقتی پای سلامت روان آدمها وسطه!
منبع: +