هوش مصنوعی چطور داره ماجرای آب‌مروارید رو زیر و رو می‌کنه؟ یه بررسی خودمونی از عملکرد مدل‌های زبانی بزرگ!

اگه تو دنیای سلامت و چشم پزشکی بچرخی، الان دیگه همه جا اسم هوش مصنوعی (همون AI معروف!) رو می‌شنوی. کلی سروصدای جدیدم راه افتاده درباره اینکه این مدل‌های زبان بزرگ – که بهشون LLM میگن (مدل زبانی بزرگ، یعنی یه الگوریتم هوشمند که می‌تونه مثل آدم‌ها جواب بده، متن بنویسه، سوال جواب بده و کلی کار باحال انجام بده) – چقدر قراره زندگی بیمارا و دکترها رو آسان‌تر کنن. خب بیاید با هم خودمونی نگاه کنیم ببینیم این داستان تا کجا پیش رفته!

یه تیم محقق باحوصله تو بیمارستان چشم و گوش دانشگاه فودان چین، اومدن پنج تا از این مدل زبان بزرگ رو روی سؤال‌های مربوط به بیماری آب‌مروارید (Cataract = همون کدر شدن لنز چشم که باعث تار شدن دید میشه) امتحان کردن. این پنج‌تا چی بودن؟ ChatGPT-4، ChatGPT-4o (اون o آخر یعنی نسخه پیشرفته‌تر و هوشمندتر)، Gemini (یه مدل ساخت گوگل)، Copilot (یه دستیار هوش مصنوعی که مایکروسافت پشتشه) و Llama 3.5 (یه مدل اپن سورس آزاد که هرکسی قبولش داره می‌تونه استفاده کنه).

خب، سوال‌ها رو از جنبه‌های مختلف بررسی کردن: دقت (همون accuracy یعنی چقدر اطلاعات درست داده)، کامل بودن جواب (کاملاً جواب داده یا نصفه نیمه؟)، خلاصه نویسی (جواب کوتاه و مفید یا حرف زیاد؟)، بی‌خطر بودن (یعنی بدون دادن پیشنهاد اشتباه یا خطرناک)، راحتی خوندن (readability)، ثبات جواب‌ها (stability، یعنی اگه دوبار همون سوال رو بپرسی، یه جواب قابل اعتماد بده!) و توانایی خودشون در اصلاح جواب (یعنی اگه اشتباه کنه، خودش بفهمه و درست کنه).

حالا نتایج رو لو بدم؟ ChatGPT-4o تو اکثر زمینه‌ها بهترین بود! مثلا توی دقت امتیازش 6.70 از 7 شد (و این یعنی خیلی درست جواب داده)، کامل بودن هم نمره خوبی گرفت (4.63)، بی‌خطری هم عالی (نمره 3.97). البته Gemini توی خلاصه‌گویی شاهکار زد و تونست کوتاه و مفید جواب بده (امتیاز 4.00). جالبه بدونی، همه این مدل‌ها (هر سؤال با هر موضوع مربوط به آب‌مروارید) یا هم‌تراز یا حتی بهتر از آدمیزاد جواب دادن!

یه نکته بامزه: ChatGPT-4o تو «قابل خوندن بودن» (یعنی متنش برای مخاطب سخت یا آسون باشه) اتفاقاً امتیاز پایینی گرفت (26.02 از 100)، یعنی جواباش یکم پیچیده بود. Copilot کمی بهتر بود (نمره 40.26)، اما باز هم از خودِ جوابای آدم‌ها ساده‌تر نبودن (آدما نمره 51.54 داشتن). البته Copilot یه جایزه دیگه هم گرفت: جواب‌هاش پایدارتر و تکرارپذیرتر بودن (یعنی اینکه اگه بارها پشت سر هم همون سؤال رو بزنی، معمولاً همون جواب قبلی رو می‌ده و کمتر گیج می‌شه). کل این مدل‌ها یه وِیژگی باحال ثابت کردن، اونم این بود که اگه بهشون گفته بشه تصحیح کن، می‌تونن خودشون اشکال رو درک کنن و اغلب درست جواب بدن (Self-correction یعنی همین هنر متوجه شدن اشتباهات و درست کردنشون).

درنهایت، این مطالعه نشون داد که مدل‌های زبانی بزرگ، مخصوصاً ChatGPT-4o، پتانسیل فوق‌العاده‌ای دارن برای کمک به پاسخ دادن به سؤال‌های بیماران درباره آب‌مروارید. یعنی می‌تونن جواب دقیق، کامل و نسبتاً امن بدن. ولی دقت کن، هنوز هم باید حواست جمع باشه و فقط به هوش مصنوعی تکیه نکنی. چون هنوز محدودیت‌هایی دارن و تو طبابت و پرسش و پاسخ‌های حساس، بهتره هوش مصنوعی فقط ابزار باشه، نه جایگزین نهایی تصمیم‌گیری! پس اگه یه مشکلی درباره چشم و آب‌مروارید برات پیش اومد، می‌تونی از این مدل‌ها کمک بگیری ولی نتیجه نهایی رو همیشه باید یه متخصص ببینه و تأیید کنه.

در یک جمله: آینده هوش مصنوعی تو سلامت، مخصوصاً برای بیماری‌هایی مثل آب‌مروارید، خیلی هیجان‌انگیزه! فقط حواسمون باشه که کنار علم و تجربه واقعی دکترها، از این ابزارها درست و مسئولانه استفاده کنیم!

منبع: +