این روزها دیگه هوش مصنوعی فقط تو فیلمهای علمی تخیلی نیست! یکی از جدیدترین استفادههاش رفته سراغ کارای دکترها؛ مثلاً نوشتن یادداشتهای بالینی از مکالمه با مریضها. به این کار میگن “ambient scribe” یعنی هوش مصنوعی مثل منشی مخفی میاد و حرفای بین پزشک و بیمار رو گوش میده و خلاصهش رو تبدیل به گزارش پزشکی میکنه. حالا سوال اینه: این یادداشتهایی که هوش مصنوعی تولید میکنه واقعاً به خوبی یادداشتهای خود پزشکا هست یا نه؟
یه تیم اومدن اینو خیلی دقیق بررسی کردن. اونا سراغ پنج تا تخصص مختلف رفتن: پزشکی عمومی، کودکان، زنان و زایمان، ارتوپدی (این یعنی تخصص استخوان و مفاصل)، و قلب بزرگسالان. جمعاً 97 تا مکالمه بین مریض و دکتر رو ضبط کردن و اطلاعات هویتی رو حذف کردن که نشه مریضا رو شناخت (به این کار میگن de-identified). بعدش برای هر کدوم از این ملاقاتها، دو نوع یادداشت درست کردن: یه بار با هوش مصنوعی و یه بار با خود پزشکا، بدون این که اون پزشکا بدونن قراره مقایسه بشن.
برای اینکه بفهمن کدوم بهتره، از یه چارچوب خیلی معتبر به اسم PDQI-9 استفاده کردن. این PDQI-9 یه سیستم امتیازدهیه که دکترها معمولاً خودشون هم استفاده میکنن برای بررسی کیفیت یادداشتهای پزشکی. تو این روش، یادداشتها از ۱۱ تا لحاظ—مثل دقت، منظم بودن، کامل بودن و غیره—با مقیاس لیکرت (یعنی همون که از مثلاً ۱ تا ۵ به یه چیز امتیاز میدن) بررسی میشه. یه نکته مهم دیگه هم “hallucination” بود. منظور از hallucination اینه که هوش مصنوعی بعضی وقتا یه اطلاعاتی میسازه که اصلاً وجود نداره یا توی مکالمه نبوده، که خب این میتونه خیلی خطرناک باشه!
دوتا کارشناس متخصص برای هر تخصص، به صورت ناشناس، به این یادداشتها امتیاز دادن. جالب اینجاست که هماهنگی بین نظرهاشون هم خیلی خوب بود (بر اساس آماری به نام RWG بالای ۰.۷ که یعنی اختلاف نظرشون کم بوده).
حالا نتیجه چی شد؟ یادداشتهای خود پزشکا یه کم امتیاز کلی بالاتری آوردن (۴.۲۵ از ۵) در مقابل یادداشتهای هوش مصنوعی (۴.۲۰)، که اختلافش خیلی کم ولی از نظر آماری قابل توجه بوده. به جز این، پزشکا تو دقت، خلاصهنویسی و انسجام داخلی بهتر بودن. اما یادداشتهای هوش مصنوعی جامعتر و مرتبتر بودن—یعنی جزییات بیشتری داشتن و ساختارشون منظمتر بود.
یه نقطه ضعف بزرگی که یادداشتهای هوش مصنوعی داشتن این بود که ۳۱٪شون دچار hallucination بودن (یعنی اطلاعات اشتباه یا ساختگی داشتن)، در حالی که این عدد تو یادداشتهای پزشکا فقط ۲۰٪ بود. جالبه بدونین با این حال، کلی از داورهای بررسی، یادداشتهای هوش مصنوعی رو بیشتر دوست داشتن! (۴۷٪ یادداشتهای AI در برابر ۳۹٪ یادداشتهای پزشک)
در نتیجه، این تحقیق نشون داد یادداشتهایی که با مدل زبانی بزرگ—یا همون LLM یعنی Large Language Model که همون هوش مصنوعیهای خیلی پیشرفته مثل ChatGPT و… هست—تولید میشن، از لحاظ کیفیت نزدیک به یادداشت پزشکا هستن. البته فعلاً خیلی مفصلتر و مرتبتر مینویسن اما خلاصهنویسیشون ضعف داره و خطر اشتباهنویسی یا همون hallucination توشون بیشتره. در آخر، همین مطالعه نشون داد که ابزار PDQI-9 برای سنجش این کیفیت واقعاً کاربردیه و میتونه به پزشکا کمک کنه اگه بخوان هوش مصنوعی رو تو یادداشتنویسی استفاده کنن، بدونن چطور کیفیتش رو بسنجن.
خلاصهاش؟ هوش مصنوعی داره به دنیای پزشکی وارد میشه و هر روز قویتر میشه، اما هنوزم باید مراقب اشتباهاتش بود و پزشکا نقش مهمی دارن تو کنترل و اصلاحش!
منبع: +