وقتی هوش مصنوعی جای جراح رو می‌گیره: ماجرای مدیریت عوارض بعد از عمل با مدل‌های زبانی بزرگ!

تا حالا فکر کردی اگه بعد از عمل جراحی یه مشکلی پیش بیاد، کی باید جمعش کنه؟ معمولاً اینجور وقتا تیم پزشکی و مخصوصاً جراح‌ها باید بیان وسط و با توجه به تجربه‌ای که دارن، سریع دست به کار بشن. اما چند وقتیه یه موضوع جذاب سر زبون‌ها افتاده: مدل‌های زبانی بزرگ یا همون Large Language Models که بهشون LLM هم می‌گن (یعنی یه جور هوش مصنوعی که می‌تونه با خوندن داده‌های زیاد، جواب سؤال‌ها رو مثل آدم بده!)

یه تیم از محققای اهل آلمان و سوئیس (اسم‌هاشون هم خیلی خارجی بود، مثلاً Sophie-Caroline Schwarzkopf و دوستانش!) اومدن بررسی کنن ببینن این مدل‌های زبانی بزرگ چقدر می‌تونن تو درمان عوارض بعد از جراحی کمک کنن یا مثل آدم‌های واقعی عمل کنن یا نه.

اون‌ها سه تا از قوی‌ترین مدل‌های هوش مصنوعی رو آوردن وسط؛ یعنی GPT-3، GPT-4 و یه مدل دیگه به اسم Gemini-Advanced (این‌ها همون مدل‌هایی هستن که مثلاً چت‌بات ChatGPT یا بقیه ابزارهای هوش مصنوعی ازش استفاده می‌کنن). بعد گرفتن شش تا پرونده واقعی از مریض‌هایی که بعد از عمل براشون مشکل پیش اومده بود. این کیس‌ها رو به هوش مصنوعی‌ها نشون دادن و همزمان به یه گروه پزشک حرفه‌ای هم دادن و از هر دو طرف خواستن جواب بدن که:

۱. این مریض باید کجا بره؟ یعنی همون تریاژ (یه جور دسته‌بندی اورژانسی برای بیمارا که ببینن کدومشون باید زودتر رسیدگی بشه)

۲. به‌نظر شما مریض چی شده؟ یعنی تشخیص اولیه

۳. برنامه مدیریت فوری چیه؟ یعنی چه آزمایش‌، تشخیص و درمان‌هایی باید سریع براش انجام بشه.

جواب‌ها رو جمع زدن و با همدیگه مقایسه کردن تا ببینن کی کارش بهتره! حالا نتایج خیلی جالب شدن:

برای پیدا کردن نوع عارضه بعد از عمل، GPT-4 حتی از خیلی پزشکا بهتر بود! یعنی جراحا تونستن ۷۶/۳ درصد مواقع درست تشخیص بدن، GPT-3 حدود ۷۵ درصد و GPT-4 ترکوند با ۹۶/۷ درصد! (اینجا اون درصد‌ها یعنی در چند درصد کیس‌ها، درست عارضه رو تشخیص دادن). این اختلاف آن‌قدر عجیب نبود که از نظر آماری هم معنادار بشه، ولی نشون می‌ده GPT-4 واقعاً قدرت بالایی داره.

ولی وقتی بحث تریاژ بود، یعنی بگیم کدوم مریض خطرناکه کدوم نیست، جراحا هنوز پرچم‌دار هستن: ۸۴/۸ درصدشون درست تریاژ کردن. جالب اینجاست که GPT-3 فقط تو ۵۰ درصد موارد درست عمل کرد و GPT-4 حتی پایین‌تر، یعنی ۳۸/۳ درصد! پس فعلاً واسه تریاژ هنوز نمی‌تونیم خیلی به هوش مصنوعی اعتماد کنیم.

یک جای دیگه‌ای که هوش مصنوعی‌ها خوب عمل کردن، بخش پیشنهاد درمان و کارهای تشخیصی بود. یعنی هر دو مدل GPT-3 و GPT-4 تونستن واسه درمان عوارض بعد از جراحی، برنامه‌های تقریبا کاملی ارائه بدن. ولی جالب بدونی Gemini-Advanced گاهی یا اصلاً پیشنهاد درمانی نمی‌داد یا اینکه جواب‌هاش رو سانسور می‌کرد! (سانسور کردن یعنی مثلاً نمی‌خواست مسئولیت توصیه پزشکی رو قبول کنه و هیچ جوابی نمی‌داد).

در مجموع چی میشه گفت؟ به‌طور کلی هوش مصنوعی‌ها مخصوصاً این مدل‌های زبانی جدید، می‌تونن تو مدیریت عوارض بعد از جراحی درست و حسابی کمک کنن و جواب‌های کاملی بدن. مخصوصاً GPT-4 که واقعاً دقیق کار کرد. این نشون میده که هرچی این مدل‌ها پیشرفت کنن، شاید بتونن واقعاً کنار تیم درمان باشن و بهشون قدرت بیشتری بدن. ولی فعلاً به عنوان یه پزشک ماشین‌وار که همه‌چی رو بدونه و جای پزشک واقعی تصمیم بگیره، هنوز زوده!

خلاصه مقاله این بود. اگه یه روز بعد از عمل حس کردی ربات‌ها دارن نظر می‌دن، بدون که شاید بخوان فقط کمک کنن و هنوز جای تجربه و قضاوت تیم پزشکی رو نگرفتن… حداقل فعلاً! 😉

منبع: +