وقتی هوش مصنوعی مثل متخصص حرف می‌زنه: داستان ChatGPT-4 و مدیریت بیماری‌های التهابی روده

خب بچه‌ها بیاید یه گپ دوستانه بزنیم درباره اینکه چطور هوش مصنوعی (یعنی همین AI خودمون – برنامه‌هایی که می‌تونن مثل انسان فکر کنن و جواب بدن) داره وارد دنیای پزشکی می‌شه، اونم تو زمینه‌هایی مثل آموزش به بیماران. یکی از مریضی‌هایی که واقعاً به توضیح و آموزش خوب برای بیمارا نیاز داره، همین بیماری‌های التهابی روده یا همون IBD هست. همینطور که می‌دونید، مریضا باید همیشه درگیر درمان و پرس و جو باشن، ولی متأسفانه اطلاعاتی که توی اینترنت پیدا می‌کنن گاهی خیلی جورواجور و بی‌کیفیت می‌شه.

اینجا بود که بحث ChatGPT اومد وسط؛ همون هوش مصنوعی مولد (Generative AI یعنی هوش مصنوعی که خودش می‌تونه متن یا چیزای دیگه مثل عکس تولید کنه) که حسابی همه‌جا داره درباره‌ش صحبت می‌شه. دانشمندا اومدن بررسی کنن که اصلاً این ChatGPT-4 می‌تونه تو جواب دادن به سوالای بیماران IBD مثل یه آدم کاردرست عمل کنه یا نه.

روش کارشون هم خیلی جالب بود: اومدن ۲۵ تا سوالی که بیمارا معمولاً توی ویزیت‌های روزمره درباره IBD از دکتر می‌پرسن جمع‌آوری کردن. این سوالا رو دسته‌بندی کردن تو پنج موضوع مهم: حاملگی و شیر دادن، رژیم غذایی، واکسیناسیون، سبک زندگی، و درمان/جراحی. بعد برای هر سوال، هم ChatGPT-4 جواب داد، هم دو تا متخصص گوارش که واقعاً کارشون همینه.

جوابایی که داده شد رو ناشناس کردن (یعنی نه دکترها می‌دونستن کدوم رو آدم داده کدوم رو هوش مصنوعی) و دادن به دوازده تا پزشک که نصفشون متخصص IBD بودن و نصفشون نه، تا نمره بدن. نمره‌دهی هم با این مقیاس انجام شد: میزان درستی جواب، قابل اعتماد بودنش، شفافیت و قابل فهمی، و اینکه چقدر به کار میاد (یعنی بعدش واقعاً می‌دونی باید چی کار کنی یا نه). به این سیستم نمره‌دهی می‌گن Likert scale – یه جور روش امتیازدهی پنج‌امتیازی که برای نظرسنجی‌ها خیلی استفاده می‌شه.

حالا نتیجه چی شد؟ نکته جالب این بود که به طور کلی جوابای ChatGPT-4 از جوابای دکترای متخصص نمره بیشتری گرفت! میانگین نمره ChatGPT-4 عدد ۴.۲۸ بود، در حالی که انسان‌ها ۴.۰۵ گرفتن و این اختلاف هم کاملاً معنی‌دار بود. بهترین جوابا توی سوژه درمان و جراحی بود و ضعیف‌ترین نمره رو سوالای مربوط به رژیم گرفتن (مثلا رژیم غذایی برای IBD هنوز هم جای کار زیادی داره).

یه نکته جالب دیگه این بود که فقط ۳۳ درصد از وقتا، پزشکای داور تونستن درست تشخیص بدن که کدوم جواب رو هوش مصنوعی داده و کدوم رو انسان! یعنی نوشته‌های ChatGPT-4 تا این حد شبیه دکترها شده بود. چه متخصصا و چه پزشکای غیرمتخصص، اصولاً جواب‌های AI رو خیلی خوب دونستن، هرچند خود متخصصای IBD کلاً نمره‌هاشون سخگیرانه‌تر بود.

در نهایت، این تحقیق نشون داد که ChatGPT-4 می‌تونه جواب‌هایی واضح، دقیق و کاربردی به سوالای مردم درباره بیماری‌های التهابی روده بده و خیلی وقتا حتی از دکترها هم بهتر عمل می‌کنه! از طرف دیگه، این نشون می‌ده که هوش مصنوعی واقعاً می‌تونه به عنوان یه ابزار کمکی تو آموزش بیمارا به کار بیاد. البته باید حواسمون باشه که هنوز تحقیقات بیشتری لازمه تا ببینیم تو دنیای واقعی چه جوری می‌شه از این دستیار هوشمند به بهترین شکل تو طبابت استفاده کرد، مخصوصاً زمانی که پای مراقبت‌های کاملاً شخصی و حساس وسط باشه.

خلاصه، دنیا داره عوض می‌شه و حتی جواب دادن به سوالای پزشکی هم وارد مرحله جدیدی شده! هوش مصنوعی دیگه فقط یه چیز تو فیلم‌های علمی‌تخیلی نیست؛ داره کم‌کم میاد تو مطب‌ها و حتی ممکنه یه روزی بشه مشاور همۀ ما برای سوالای سلامتیمون!

منبع: +