آیا چت‌بات‌های هوشمند واقعاً اطلاعات پزشکی درست میدن؟ بررسی ChatGPT-4 و Gemini درباره فیبروز ریوی!

اگه تا حالا شده دنبال اطلاعات پزشکی درباره یه بیماری خاص باشی، مثل همون فیبروز ریوی ایدیوتیک (IPF)، احتمالاً با خودت فکر کردی که این هوش مصنوعی‌هایی مثل ChatGPT-4 یا Gemini 1.5 Pro واقعاً چقدر اطلاعاتشون قابل اعتماده؟ خب همین موضوع رو یه گروه محقق بررسی کردن و نتایج جالبی گرفتن که میخوام براتون مثل یه دوست تعریف کنم!

اول بذار یه توضیح کوتاه درباره IPF بدم: فیبروز ریوی ایدیوتیک یه بیماری ریویه که دلیل مشخصی نداره و باعث سفت شدن بافت ریه میشه. حالا، کلی راهنما و دستورالعمل پزشکی جهانی هست (که بهشون مثلاً ATS/ERS/JRS/ALAT IPF guidelines میگن! خلاصه بگم، یعنی یه سری توصیه علمی که متخصص‌ها نقطه‌به‌نقطه تعیین کردن برای تشخیص و درمان این بیماری).

توی این تحقیق، دو تا مدل هوش مصنوعی معروف رو آوردن و ازشون ۲۳ تا سوالی که از همین دستورالعمل‌ها درآورده بودن، پرسیدن. جواب‌‌ها رو هم ۶ نفر از متخصص‌ها بررسی کردن و بر اساس چندتا فاکتور نمره دادن:

کیفیت اطلاعات (با مقیاس DISCERN که یه ابزار سنجش کیفیت اطلاعات پزشکیه).
قابل اعتماد بودن جواب (طبق معیار JAMA Benchmark که یه جور استاندارده برای صحت و اعتبار اطلاعات پزشکی).
خوندنِ راحت متن (بر اساس معیار Flesch–Kincaid، این یه روشی برای سنجش آسون یا سخت بودن متنه).
هماهنگی جواب‌ها با راهنماهای بین‌المللی پزشکی (یعنی ببینن واقعاً توضیحات چقدر با گفته‌های متخصصا یکیه).

خب بیایید بریم سراغ نتایج! هم ChatGPT-4 و هم Gemini 1.5 Pro تا حدی جواب‌هاشون درست و قابل اعتماد بود، ولی عالی نبود. از نظر معیار JAMA, هر دو قدرت نسبی داشتن، اما یه جورایی کامل مطمئن نبودن.

نکته‌ی جالب اینکه Gemini 1.5 Pro تونست اطلاعات مربوط به درمان این بیماری رو خیلی بهتر از ChatGPT-4 بده. مثلاً امتیاز کیفیت درمانی Gemini شده ۵۶، درحالی‌که ChatGPT-4 امتیاز ۴۳ رو گرفت! (هرچی بالاتر، بهتر).

همچنین Gemini توی هماهنگی با دستورالعمل‌های بین‌المللی هم امتیازش از ChatGPT-4 بالاتر بود (میانگین امتیاز Gemini تو این بخش حدود ۳ از ۴ بوده ولی ChatGPT-4 حدود ۲.۵ تا ۳ بوده).—پس، اگه دنبال اطلاعات دقیق‌تر و مطابق‌تر با گفته‌های متخصصان باشی، Gemini یه قدم جلوتره!

اما یه مشکل بزرگ این وسط هست: نوشته‌های هر دو مدل اصلاً آسون نبود بخونی! یعنی اگه پیش‌زمینه پزشکی نداشته باشی، احتمالاً نمی‌تونی اطلاعات تولیدشده توسط این هوش مصنوعیا رو راحت بفهمی. (خود تحقیق به این نتیجه رسید که readability یا همون راحتی متن واقعاً پایین بوده).

خلاصه‌ی قضیه اینه که هر دو مدل می‌تونن توی بعضی موارد کمک‌کننده باشن و آگاهی اولیه بدن، ولی فعلاً نمی‌تونیم صددرصد بهشون اعتماد کنیم یا بدون توضیح بیشتر از پزشک بهشون تکیه کنیم. Gemini از نظر کیفیت بهتر عمل کرده و جواب‌هاش بیشتر شبیه راهنمای پزشکیاست، اما همچنان نیاز به بهتر شدن دارن، به‌خصوص اینکه مطالب رو آسون‌تر و قابل فهم برای عموم بنویسن.

در کل، دانشمندا می‌گن این مدل‌های هوشمند اگه بهتر بشن می‌تونن تو آینده یه ابزار مرجع برای بیمارا و حتی پزشکا باشن تا تصمیمات دقیق‌تر و علمی‌تری بگیرن، اما فعلاً باید با احتیاط ازشون استفاده کرد، یعنی مکمل اطلاعات پزشک باشن—نه جایگزین کامل!

پس دفعه بعدی که خواستی درباره یه بیماری عجیب تو گوگل سرچ کنی، بدون این چت‌باتا شاید اطلاعات خوبی بدن، ولی آخرش نظرات متخصصان و پزشکای واقعی هنوز حرف اول رو می‌زنه!

منبع: +