ببین چی ساختن: یه معیار خفن برای سنجش هوش مصنوعی تو پزشکی سوئد!

اگه تا حالا فکر می‌کردی همه داستان‌های هوش مصنوعی (همون AI خودمون)، فقط درباره انگلیسیه، بهتره دوباره فکر کنی! این روزا دیگه مدل‌های زبون‌گنده یا همون LLMها (Large Language Models یعنی مدل‌هایی که می‌تونن کلی متن و جمله بسازن و سوال جواب بدن) دارن وارد ماجراهای پزشکی تو کل دنیا میشن. ولی خب، یه مشکل اینجا هست: آیا واقعاً این مدل‌ها بلدن با زبان و سیستم پزشکی کشورهای غیرانگلیسی مثل سوئد درست کار کنن یا نه؟

چندتا دانشمند تو سوئد یه پروژه توپ به اسم «SMLB» راه انداختن، که یعنی «سوئدی مدیکال ال‌ال‌ام بنچ‌مارک» (Swedish Medical LLM Benchmark)؛ بنچ‌مارک هم یعنی یه چارچوب یا معیار برای سنجیدن و مقایسه. خلاصه اومدن یه قالب خاص برای تست کردن این مدل‌های زبانی تو محیط پزشکی سوئد ساختن که واقعاً خیلی لازمه، چون تست‌های پزشکی کلی حساس و تخصصیه و تازه به زبان سوئدی هم هست.

داستان SMLB اینطوریه که چهار نوع دیتاست باحاله رو برای سنجش مدل‌ها استفاده می‌کنه:

  1. سوال‌های PubMedQA (یه مجموعه سوال و جواب انگلیسی درباره پزشکی که ترنسلیت کردن به سوئدی)
  2. آزمون‌های پزشکی مخصوص سوئد (یعنی همون امتحان‌هایی که دانشجوهای پزشکی سوئد میدن)
  3. سناریوهای اورژانس پزشکی (یعنی همون موقعیتی که قراره سریع تصمیم بگیری چی کار کنی!)
  4. کیس‌های پزشکی عمومی (یعنی پرونده‌های معمول و عادی پزشکی)

همه این‌ها رو ریختن تو یه قالب تا مدل‌های مختلف رو بسنجن و بفهمن کدوم مدل واقعاً به درد پزشک‌های سوئدی می‌خوره.

حالا میخوای بدونی کدوم مدل‌ها بهترین بودن؟ طبق این تحقیق روی ۱۸ تا از خفن‌ترین مدل‌های امروزی، سه‌تاشون کولاک کردن: GPT-4-turbo (همون هوش مصنوعی پیشرفته شرکت OpenAI)، مدل Claude-3.5 (نسخه اکتبر 2023، که مال Anthropic هست)، و یک مدل دیگه به اسم o3model. این سه تا نشون دادن که هم از نظر زبانی قوی‌ان و هم از نظر منطق و دلیل پزشکی، تقریباً چیزی کم ندارن.

یه چیز جالب دیگه اینه که اگه مدل‌ها رو دوپینگ کنی با RAG، یعنی Retrieval-Augmented Generation (یه روشی که مدل اول میره اطلاعات رو از دیتابیس‌ پیدا می‌کنه و بعد جواب می‌ده)، دقت تو سوالای پزشکی بیشتر هم میشه! پس این سیستم ترکیبی واقعاً می‌تونه آینده استفاده از هوش مصنوعی تو بحث درمان بیماران رو امن‌تر و مطمئن‌تر کنه.

اما همه چیز هم گل و بلبل نیست؛ این تحقیق نشون داد عملکرد مدل‌ها خیلی با هم فرق داره و هیچ تضمینی نیست که هر مدلی همه چیز رو درست جواب بده. واسه همین دانشمندا این بنچ‌مارک رو کاملاً متن‌باز کردن (open-source یعنی هر کسی می‌تونه ازش استفاده کنه یا کامل‌ترش کنه) تا همه توی مسیر توسعه هوش مصنوعی مسئولانه حرکت کنن.

جمع‌بندی کنم: اگه قرار باشه هوش مصنوعی بیاد تو بیمارستان‌ها و کنار دکترهای سوئدی کار کنه، برعکس انگلیسی که همه مدل‌ها هنوز توش قوی‌ان، واسه سوئدی نیاز به چارچوب دقیق داریم تا مدل‌ها رو سخت‌گیرانه و با دقت بسنجیم. چون مسائل زبان‌شناسی و حتی فرهنگ پزشکی خیلی تو کشورها فرق می‌کنه. این تحقیق ثابت کرد که با وجود پیشرفت بالا، هنوز نمیشه راحت به هر مدل زبانی اعتماد کرد و باید حواسمون باشه چه مدلی رو برا کجا به کار می‌بریم؛ مخصوصاً برای سوئدی‌ها که ذخیره اطلاعات پزشکی مخصوص‌به‌خودشون رو دارن.

در کل SMLB نه‌فقط یه ابزار برای تست هوش مصنوعیه، بلکه یه مشوق واسه آدماست که بیان مشارکت کنن و این فضا رو بهتر کنن، تا فرداهایی که AI اومد بیمارستان با دست پر و خیال راحت همراه دکترای واقعی باشه! 😉

منبع: +