هوش مصنوعی هنوز تو تشخیص تصویرای پزشکی قوی نیست!

این روزا هوش مصنوعی (AI) داره تو دنیای پزشکی خیلی پررنگ‌تر میشه. جالبه بدونید درصد پزشکایی که از AI استفاده می‌کنن از ۳۸٪ سال ۲۰۲۳ جهش خورده و رسیده به ۶۸٪ تو سال ۲۰۲۴! یعنی واقعاً همگی دارن کم کم به استفاده از هوش مصنوعی عادت می‌کنن!

حالا با اومدن مدل‌های زبانی بزرگ (LLM)، مثلاً ChatGPT و بقیه رفقاش، طرز استفاده هم فرق کرده. مدل‌های جدید حتی ورودی چندرسانه‌ای (multimodal) رو ساپورت می‌کنن. منظور از ورودی چندرسانه‌ای همون چیزیه که به جای فقط متن، عکس یا حتی صدا و ویدیو هم می‌تونه بفهمه و پردازش کنه. خب همین باعث شده پزشکا وسوسه بشن کارای تفسیر تصویر پزشکی رو هم بندازن گردن مدل‌ها.

حالا سؤال: این مدل‌های زبانی بزرگ (LLM)، مثلاً Claude 3.5 Sonnet و DeepSeek R1، واقعاً می‌تونن از روی عکسای پزشکی مثل “دیاگرام گلنوئید والچ” (که تقریباً تصویر شماتیک و ساده‌ای از شونه است و یه جور طبقه‌بندی واسه عمل بازسازی شونه‌س، بهش میگن Walch Glenoid Classification) درست جواب بدن یا نه؟

تو این مطالعه اومدن از دیتابیس Radiopedia هفت‌تا از این تصاویر سیاه‌وسفید ساده رو گذاشتن جلو این دو تا هوش مصنوعی و با استفاده از یکی از سرویس‌های آنلاین به اسم Perplexity.ai (بدون این که هیچ آموزش پزشکی خاصی به مدل‌ها داده‌ باشن!)، به مدل‌ها گفتن اینا رو طبقه‌بندی کن. جالب اینجاست که سوالا رو تو چند تا مکالمه متفاوت با دستورالعمل‌های کوتاه و طولانی دادن (مثلاً از ۲۲ تا ۸۶۴ کلمه برای DeepSeek و از ۱۲۷ تا ۸۴۰ کلمه واسه Claude).

نتیجه چی شد؟
دیپ‌سیک تونست ۴۴٪ موارد رو درست حدس بزنه (از ۱۶ تا تصویر، فقط ۷ تا رو درست زده!)، ولی Claude به طرز عجیبی ۰ درصد دقت داشت یعنی حتی یکی رو هم نتونست درست تشخیص بده! تازه متوجه شدن هرچی توضیح و دستورالعمل طولانی‌تر بود (حداقل واسه DeepSeek) یه کم دقتش بالاتر رفت.

اشتباهِ همیشگی مدل‌ها چی بود؟ مثلاً تو کلاس‌بندی A2 بارها اشتباه گرفتن به جای A1 (۳۲٪ مواقع) یا B2 (۲۰٪ مواقع) گذاشتن. یعنی حتی تو دیاگرامای پزشکی ساده هم گیج می‌شن، چه برسه به عکسای واقعی پزشکی!

یک نکته مهم اینجا اینه که DeepSeek چون ویژگی یادگیری پیوسته و دسترسی به دیتاست‌های اوپن‌سورس داره، یکم عملکردش بهتر بود؛ ولی خب هنوزم اصلاً در حد استفاده تو دنیای واقعی پزشکی نیست.

دلیل اصلیش هم واضحه: این مدل‌ها پایه‌شون متنه، یعنی اکثراً فقط رو داده‌های متنی آموزش دیدن. بنابراین برای تشخیص الگوها و جزئیات تصویری که تو عکس‌های پزشکی هست واقعاً ضعف دارن و معلومات شون کافی نیست.

پس اگه فکر کردین قراره همین امروز هوش مصنوعی عکسای پزشکی شما رو تفسیر کنه و دکترها راحت بشینن چای بخورن، باید بگم هنوز خیلی مونده! نتیجه این تحقیق نشون می‌ده تا فوریه ۲۰۲۵، مدل‌های عمومی‌ای که واسه کارهای دیگه ساخته شدن و آموزش دیدن (مثلاً همین ChatGPT گونه‌ها)، دقت و ثبات لازم واسه تفسیر درست تصاویر پزشکی ندارن و ریسک دارن. پس تا این مدل‌ها آموزش تخصصی‌تر نبینن و واقعاً با عکس‌های پزشکی تمرین نکنن، نمی‌شه روی دقت قطعی‌شون حساب کرد. خلاصه اینکه راه درازی مونده تا هوش مصنوعی دکتر تصویربرداری واقعی بشه!

منبع: +