آیا نوت‌نویس هوش مصنوعی واقعاً به دکترها می‌رسه؟ بررسی کیفیت یادداشت‌های پزشکی تولید شده با LLM

این روزها دیگه هوش مصنوعی فقط تو فیلم‌های علمی تخیلی نیست! یکی از جدیدترین استفاده‌هاش رفته سراغ کارای دکترها؛ مثلاً نوشتن یادداشت‌های بالینی از مکالمه با مریض‌ها. به این کار می‌گن “ambient scribe” یعنی هوش مصنوعی مثل منشی مخفی میاد و حرفای بین پزشک و بیمار رو گوش میده و خلاصه‌ش رو تبدیل به گزارش پزشکی می‌کنه. حالا سوال اینه: این یادداشت‌هایی که هوش مصنوعی تولید می‌کنه واقعاً به خوبی یادداشت‌های خود پزشکا هست یا نه؟

یه تیم اومدن اینو خیلی دقیق بررسی کردن. اونا سراغ پنج تا تخصص مختلف رفتن: پزشکی عمومی، کودکان، زنان و زایمان، ارتوپدی (این یعنی تخصص استخوان و مفاصل)، و قلب بزرگسالان. جمعاً 97 تا مکالمه بین مریض و دکتر رو ضبط کردن و اطلاعات هویتی رو حذف کردن که نشه مریضا رو شناخت (به این کار می‌گن de-identified). بعدش برای هر کدوم از این ملاقات‌ها، دو نوع یادداشت درست کردن: یه بار با هوش مصنوعی و یه بار با خود پزشکا، بدون این که اون پزشکا بدونن قراره مقایسه بشن.

برای اینکه بفهمن کدوم بهتره، از یه چارچوب خیلی معتبر به اسم PDQI-9 استفاده کردن. این PDQI-9 یه سیستم امتیازدهیه که دکترها معمولاً خودشون هم استفاده می‌کنن برای بررسی کیفیت یادداشت‌های پزشکی. تو این روش، یادداشت‌ها از ۱۱ تا لحاظ—مثل دقت، منظم بودن، کامل بودن و غیره—با مقیاس لیکرت (یعنی همون که از مثلاً ۱ تا ۵ به یه چیز امتیاز میدن) بررسی میشه. یه نکته مهم دیگه هم “hallucination” بود. منظور از hallucination اینه که هوش مصنوعی بعضی وقتا یه اطلاعاتی می‌سازه که اصلاً وجود نداره یا توی مکالمه نبوده، که خب این می‌تونه خیلی خطرناک باشه!

دوتا کارشناس متخصص برای هر تخصص، به صورت ناشناس، به این یادداشت‌ها امتیاز دادن. جالب اینجاست که هماهنگی بین نظرهاشون هم خیلی خوب بود (بر اساس آماری به نام RWG بالای ۰.۷ که یعنی اختلاف نظرشون کم بوده).

حالا نتیجه چی شد؟ یادداشت‌های خود پزشکا یه کم امتیاز کلی بالاتری آوردن (۴.۲۵ از ۵) در مقابل یادداشت‌های هوش مصنوعی (۴.۲۰)، که اختلافش خیلی کم ولی از نظر آماری قابل توجه بوده. به جز این، پزشکا تو دقت، خلاصه‌نویسی و انسجام داخلی بهتر بودن. اما یادداشت‌های هوش مصنوعی جامع‌تر و مرتب‌تر بودن—یعنی جزییات بیشتری داشتن و ساختارشون منظم‌تر بود.

یه نقطه ضعف بزرگی که یادداشت‌های هوش مصنوعی داشتن این بود که ۳۱٪شون دچار hallucination بودن (یعنی اطلاعات اشتباه یا ساختگی داشتن)، در حالی که این عدد تو یادداشت‌های پزشکا فقط ۲۰٪ بود. جالبه بدونین با این حال، کلی از داورهای بررسی، یادداشت‌های هوش مصنوعی رو بیشتر دوست داشتن! (۴۷٪ یادداشت‌های AI در برابر ۳۹٪ یادداشت‌های پزشک)

در نتیجه، این تحقیق نشون داد یادداشت‌هایی که با مدل زبانی بزرگ—یا همون LLM یعنی Large Language Model که همون هوش مصنوعی‌های خیلی پیشرفته مثل ChatGPT و… هست—تولید می‌شن، از لحاظ کیفیت نزدیک به یادداشت پزشکا هستن. البته فعلاً خیلی مفصل‌تر و مرتب‌تر می‌نویسن اما خلاصه‌نویسیشون ضعف داره و خطر اشتباه‌نویسی یا همون hallucination توشون بیشتره. در آخر، همین مطالعه نشون داد که ابزار PDQI-9 برای سنجش این کیفیت واقعاً کاربردیه و می‌تونه به پزشکا کمک کنه اگه بخوان هوش مصنوعی رو تو یادداشت‌نویسی استفاده کنن، بدونن چطور کیفیتش رو بسنجن.

خلاصه‌اش؟ هوش مصنوعی داره به دنیای پزشکی وارد میشه و هر روز قوی‌تر میشه، اما هنوزم باید مراقب اشتباهاتش بود و پزشکا نقش مهمی دارن تو کنترل و اصلاحش!

منبع: +