چطور هوش مصنوعی می‌تونه به بیماران دیابتی مشاوره بده؟ ماجرای GPT-4o و رقابتش با پزشکا!

خب امروزه مراقبت درست دیابت حسابی به ارتباط خوب، بالا بردن اعتماد به نفس مریض‌ها و مدیریت سبک زندگی‌شون وابسته‌ست. اما یه مشکلی هست: هر روز تعداد افراد دیابتی داره بیشتر میشه و از اون طرف هم کمبود پزشک و پرستار داریم. خب، این وسط یکی از راه‌هایی که جدیداً روش حساب باز کردن، همین هوش مصنوعی‌های زبانی بزرگه. مثلاً همین مدل‌های LLM که مخفف Large Language Models هستن و یعنی هوش مصنوعی‌هایی مثل ChatGPT یا GPT-4o که می‌تونن با زبان طبیعی جواب بدن و باعث میشن کلی اطلاعات شخصی‌سازی شده و مخصوص هر فرد، به راحتی به مریض منتقل بشه.

تو این تحقیق اومدن یه رقابتی راه انداختن بین جواب‌های GPT-4o (یکی از پیشرفته‌ترین مدل‌های هوش مصنوعی) و جواب‌هایی که کادر درمانی یعنی همون پزشکان و متخصصان واقعی به سؤال‌های مربوط به دیابت می‌دن. هدف این بود ببینن کدوم‌شون از نظر اطلاعات درست، مفید بودن و همدلی (یعنی اینکه حس کنن طرف مقابل واقعاً حالشون رو درک می‌کنه) امتیاز بهتری می‌گیره.

برای این کار یه پرسشنامه آنلاین گذاشتن و بین نوامبر ۲۰۲۴ تا ژانویه ۲۰۲۵ از ۱,۸۱۰ نفر خواستن که به جواب‌ها امتیاز بدن. ملاک امتیازدهی بر اساس سه چیز بود: میزان آگاهی و دانش، مفید بودن و همدلی. این امتیازا رو هم با یه مقیاس پنج‌تایی (لیکرته، یعنی از ۱ تا ۵ به هر جواب نمره می‌دن) ثبت کردن.

حالا نتیجه چی شد؟ در کمال تعجب، GPT-4o تو مجموع امتیازا تو ۴۶.۷٪ از موارد (با بازه اطمینان ۹۵٪ بین ۲۸.۸٪ تا ۶۴.۵٪)، از پزشکای واقعی بالاتر بود. در مقابل، کادر درمانی تو ۲۳.۳٪ موارد (باز هم با بازه اطمینان) انتخاب اول مردم بودن. این یعنی هوش مصنوعی واقعاً تونسته رکاب به رکاب با یه آدم متخصص بیاد جلو – با این‌که هنوز متخصصا تو خیلی زوایا بهتر عمل می‌کنن.

البته یه نکته جالب: آدم‌هایی که سطح تحصیلات‌شون پایین‌تر بود، تو همه زمینه‌ها GPT-4o رو بیشتر دوست داشتن و نمره بیشتری بهش دادن. اما اونایی که حداقل چهار سال دانشگاه رفته بودن، فقط تو زمینه همدلی و مفید بودن به GPT-4o نمره بالاتری دادن. جالبه، یعنی شاید هوش مصنوعی فعلاً مکالمه صمیمی‌تر و قابل فهم‌تری مخصوصاً برای کسی که کمتر درس خونده ارائه می‌ده.

همه این امتیازها هم با هم ارتباط زیادی داشتن، یعنی مثلاً کسی که حس کرده جواب GPT-4o مهربون‌تره و بیشتر همدلی داره، احتمالاً امتیاز اطلاعات علمی یا مفید بودنش رو هم بالاتر داده. ولی در کل، تاثیر نهایی این تفاوت‌ها اون‌قدرها بزرگ نبود، پس باید این تفاوت رو بیشتر به عنوان یه نکته جالب توجه کنیم، نه یه معجزه جدید!

حرف آخر: این تحقیق نشون داد که مردم وقتی با هوش مصنوعی صحبت می‌کنن (حداقل تو موضوع دیابت)، احساس می‌کنن جوابا در دسترس‌تر و باکیفیت‌تره – مخصوصاً اگه سطح تحصیلات پایینی داشته باشن. با این حال، هنوز باید تحقیقات بیشتری انجام بشه تا بدونیم دقیقاً هوش مصنوعی مثل GPT-4o کجاها واقعاً می‌تونه وارد کار پزشکی بشه و چقدر اطلاعات علمی‌ای که می‌ده دقیق و بی‌خطره. البته احتمالاً این مدل‌ها آینده ارتباطات تو درمان دیابت (و شاید بسیاری بیماری‌های مزمن دیگه) رو حسابی متحول می‌کنن!

منبع: +