این روزا هوش مصنوعی (AI) داره تو دنیای پزشکی خیلی پررنگتر میشه. جالبه بدونید درصد پزشکایی که از AI استفاده میکنن از ۳۸٪ سال ۲۰۲۳ جهش خورده و رسیده به ۶۸٪ تو سال ۲۰۲۴! یعنی واقعاً همگی دارن کم کم به استفاده از هوش مصنوعی عادت میکنن!
حالا با اومدن مدلهای زبانی بزرگ (LLM)، مثلاً ChatGPT و بقیه رفقاش، طرز استفاده هم فرق کرده. مدلهای جدید حتی ورودی چندرسانهای (multimodal) رو ساپورت میکنن. منظور از ورودی چندرسانهای همون چیزیه که به جای فقط متن، عکس یا حتی صدا و ویدیو هم میتونه بفهمه و پردازش کنه. خب همین باعث شده پزشکا وسوسه بشن کارای تفسیر تصویر پزشکی رو هم بندازن گردن مدلها.
حالا سؤال: این مدلهای زبانی بزرگ (LLM)، مثلاً Claude 3.5 Sonnet و DeepSeek R1، واقعاً میتونن از روی عکسای پزشکی مثل “دیاگرام گلنوئید والچ” (که تقریباً تصویر شماتیک و سادهای از شونه است و یه جور طبقهبندی واسه عمل بازسازی شونهس، بهش میگن Walch Glenoid Classification) درست جواب بدن یا نه؟
تو این مطالعه اومدن از دیتابیس Radiopedia هفتتا از این تصاویر سیاهوسفید ساده رو گذاشتن جلو این دو تا هوش مصنوعی و با استفاده از یکی از سرویسهای آنلاین به اسم Perplexity.ai (بدون این که هیچ آموزش پزشکی خاصی به مدلها داده باشن!)، به مدلها گفتن اینا رو طبقهبندی کن. جالب اینجاست که سوالا رو تو چند تا مکالمه متفاوت با دستورالعملهای کوتاه و طولانی دادن (مثلاً از ۲۲ تا ۸۶۴ کلمه برای DeepSeek و از ۱۲۷ تا ۸۴۰ کلمه واسه Claude).
نتیجه چی شد؟
دیپسیک تونست ۴۴٪ موارد رو درست حدس بزنه (از ۱۶ تا تصویر، فقط ۷ تا رو درست زده!)، ولی Claude به طرز عجیبی ۰ درصد دقت داشت یعنی حتی یکی رو هم نتونست درست تشخیص بده! تازه متوجه شدن هرچی توضیح و دستورالعمل طولانیتر بود (حداقل واسه DeepSeek) یه کم دقتش بالاتر رفت.
اشتباهِ همیشگی مدلها چی بود؟ مثلاً تو کلاسبندی A2 بارها اشتباه گرفتن به جای A1 (۳۲٪ مواقع) یا B2 (۲۰٪ مواقع) گذاشتن. یعنی حتی تو دیاگرامای پزشکی ساده هم گیج میشن، چه برسه به عکسای واقعی پزشکی!
یک نکته مهم اینجا اینه که DeepSeek چون ویژگی یادگیری پیوسته و دسترسی به دیتاستهای اوپنسورس داره، یکم عملکردش بهتر بود؛ ولی خب هنوزم اصلاً در حد استفاده تو دنیای واقعی پزشکی نیست.
دلیل اصلیش هم واضحه: این مدلها پایهشون متنه، یعنی اکثراً فقط رو دادههای متنی آموزش دیدن. بنابراین برای تشخیص الگوها و جزئیات تصویری که تو عکسهای پزشکی هست واقعاً ضعف دارن و معلومات شون کافی نیست.
پس اگه فکر کردین قراره همین امروز هوش مصنوعی عکسای پزشکی شما رو تفسیر کنه و دکترها راحت بشینن چای بخورن، باید بگم هنوز خیلی مونده! نتیجه این تحقیق نشون میده تا فوریه ۲۰۲۵، مدلهای عمومیای که واسه کارهای دیگه ساخته شدن و آموزش دیدن (مثلاً همین ChatGPT گونهها)، دقت و ثبات لازم واسه تفسیر درست تصاویر پزشکی ندارن و ریسک دارن. پس تا این مدلها آموزش تخصصیتر نبینن و واقعاً با عکسهای پزشکی تمرین نکنن، نمیشه روی دقت قطعیشون حساب کرد. خلاصه اینکه راه درازی مونده تا هوش مصنوعی دکتر تصویربرداری واقعی بشه!
منبع: +