اگه تا حالا شده دنبال اطلاعات پزشکی درباره یه بیماری خاص باشی، مثل همون فیبروز ریوی ایدیوتیک (IPF)، احتمالاً با خودت فکر کردی که این هوش مصنوعیهایی مثل ChatGPT-4 یا Gemini 1.5 Pro واقعاً چقدر اطلاعاتشون قابل اعتماده؟ خب همین موضوع رو یه گروه محقق بررسی کردن و نتایج جالبی گرفتن که میخوام براتون مثل یه دوست تعریف کنم!
اول بذار یه توضیح کوتاه درباره IPF بدم: فیبروز ریوی ایدیوتیک یه بیماری ریویه که دلیل مشخصی نداره و باعث سفت شدن بافت ریه میشه. حالا، کلی راهنما و دستورالعمل پزشکی جهانی هست (که بهشون مثلاً ATS/ERS/JRS/ALAT IPF guidelines میگن! خلاصه بگم، یعنی یه سری توصیه علمی که متخصصها نقطهبهنقطه تعیین کردن برای تشخیص و درمان این بیماری).
توی این تحقیق، دو تا مدل هوش مصنوعی معروف رو آوردن و ازشون ۲۳ تا سوالی که از همین دستورالعملها درآورده بودن، پرسیدن. جوابها رو هم ۶ نفر از متخصصها بررسی کردن و بر اساس چندتا فاکتور نمره دادن:
- کیفیت اطلاعات (با مقیاس DISCERN که یه ابزار سنجش کیفیت اطلاعات پزشکیه).
- قابل اعتماد بودن جواب (طبق معیار JAMA Benchmark که یه جور استاندارده برای صحت و اعتبار اطلاعات پزشکی).
- خوندنِ راحت متن (بر اساس معیار Flesch–Kincaid، این یه روشی برای سنجش آسون یا سخت بودن متنه).
- هماهنگی جوابها با راهنماهای بینالمللی پزشکی (یعنی ببینن واقعاً توضیحات چقدر با گفتههای متخصصا یکیه).
خب بیایید بریم سراغ نتایج! هم ChatGPT-4 و هم Gemini 1.5 Pro تا حدی جوابهاشون درست و قابل اعتماد بود، ولی عالی نبود. از نظر معیار JAMA, هر دو قدرت نسبی داشتن، اما یه جورایی کامل مطمئن نبودن.
نکتهی جالب اینکه Gemini 1.5 Pro تونست اطلاعات مربوط به درمان این بیماری رو خیلی بهتر از ChatGPT-4 بده. مثلاً امتیاز کیفیت درمانی Gemini شده ۵۶، درحالیکه ChatGPT-4 امتیاز ۴۳ رو گرفت! (هرچی بالاتر، بهتر).
همچنین Gemini توی هماهنگی با دستورالعملهای بینالمللی هم امتیازش از ChatGPT-4 بالاتر بود (میانگین امتیاز Gemini تو این بخش حدود ۳ از ۴ بوده ولی ChatGPT-4 حدود ۲.۵ تا ۳ بوده).—پس، اگه دنبال اطلاعات دقیقتر و مطابقتر با گفتههای متخصصان باشی، Gemini یه قدم جلوتره!
اما یه مشکل بزرگ این وسط هست: نوشتههای هر دو مدل اصلاً آسون نبود بخونی! یعنی اگه پیشزمینه پزشکی نداشته باشی، احتمالاً نمیتونی اطلاعات تولیدشده توسط این هوش مصنوعیا رو راحت بفهمی. (خود تحقیق به این نتیجه رسید که readability یا همون راحتی متن واقعاً پایین بوده).
خلاصهی قضیه اینه که هر دو مدل میتونن توی بعضی موارد کمککننده باشن و آگاهی اولیه بدن، ولی فعلاً نمیتونیم صددرصد بهشون اعتماد کنیم یا بدون توضیح بیشتر از پزشک بهشون تکیه کنیم. Gemini از نظر کیفیت بهتر عمل کرده و جوابهاش بیشتر شبیه راهنمای پزشکیاست، اما همچنان نیاز به بهتر شدن دارن، بهخصوص اینکه مطالب رو آسونتر و قابل فهم برای عموم بنویسن.
در کل، دانشمندا میگن این مدلهای هوشمند اگه بهتر بشن میتونن تو آینده یه ابزار مرجع برای بیمارا و حتی پزشکا باشن تا تصمیمات دقیقتر و علمیتری بگیرن، اما فعلاً باید با احتیاط ازشون استفاده کرد، یعنی مکمل اطلاعات پزشک باشن—نه جایگزین کامل!
پس دفعه بعدی که خواستی درباره یه بیماری عجیب تو گوگل سرچ کنی، بدون این چتباتا شاید اطلاعات خوبی بدن، ولی آخرش نظرات متخصصان و پزشکای واقعی هنوز حرف اول رو میزنه!
منبع: +