FHIR-AgentBench: سنگ محکی واسه سنجش هوش مصنوعی تو پرونده‌های پزشکی مدرن!

خب بچه‌ها امروز می‌خوام درباره یه موضوع خیلی جذاب تو دنیای هوش مصنوعی پزشکی گپ بزنم! شاید اسم FHIR یا HL7 FHIR به گوشتون خورده باشه. اگه نه، خلاصه بگم: FHIR یه استاندارد جدیده واسه اینکه اطلاعات سلامت و پزشکی (مثل پرونده بیمارستانی) راحت و استاندارد با هم رد و بدل بشن. مثلاً شما از هر کلینیک یا بیمارستانی که باشین، یه فرمت یکپارچه واسه داده‌ها دارین و این یعنی کلی کار راحت‌تر میشه! 🤩

حالا، چی شده؟ دنیای هوش مصنوعی هم حسابی داره سمت این FHIR میره. یعنی الان مدل‌های زبانی بزرگ یا همون LLM ها (Large Language Models، مثل ChatGPT) باید بتونن با این سیستم پیچیده کار کنن، اطلاعات رو استخراج کنن و به زبون آدمیزاد جواب بدن!

ولی یه مشکل این وسط هست. تا الآن تست‌ها و معیارهایی که باهاش این هوش مصنوعی‌ها رو می‌سنجیدن، خیلی واقعی یا به‌روز نبودن (یعنی نتونستن نشون بدن تو شرایط واقعی سیستم FHIR چه جوری جواب می‌دن). واسه همین، دانشمندها اومدن یه سنگ محک جدید رو ساختن به اسم FHIR-AgentBench.

این FHIR-AgentBench چیه؟ یه دیتاست حسابی توپ و بزرگ درست کردن شامل ۲۹۳۱ تا سؤال واقعی بالینی (یعنی سؤالاتی که واقعاً تو بیمارستان‌ها پرسیده میشه) و همه رو بردن تو قالب FHIR. بعد با همین سؤالات اومدن مدل‌های مختلف هوش مصنوعی رو تست کردن تا ببینن کی قوی‌تره، کی جواب بهتری میده و اصلاً کجاها گیر می‌افته.

تو این تست‌ها چی رو بررسی کردن؟

فرق بین روش‌های گرفتن داده: بعضی مدل‌ها مستقیماً با API و سرویس‌های FHIR کار می‌کنن (یعنی مثل یه ربات حرفه‌ای خودشون داده رو فچ می‌کنن)، بعضیا هم از ابزارهای مخصوص این کار استفاده می‌کنن.
نوع ارتباط: یه بار سؤال و یه بار جواب (single-turn) یا چند بار سؤال و جواب پشت سر هم (multi-turn).
سبک استدلال: بعضیا فقط با زبان طبیعی جواب میدن، بعضیا توی جواب‌دهی حتی کدنویسی هم می‌کنن (!) که یعنی از هوش مصنوعی می‌خوان مستقیم دیتای FHIR رو تحلیل کنه.

نتیجه چی شد؟ فهمیدن که واقعاً کار راحتی نیست! گرفتن دقیق داده‌ها از منابع FHIR و استدلال درست روشون، دوتا چالش بزرگ هستن که حسابی رو جواب‌دهی هوش مصنوعی تاثیر می‌ذارن. خلاصه هنوز هوش مصنوعی‌ها باید کلی یاد بگیرن تا بتونن تو دنیای واقعی و تو بیمارستان‌ها واقعاً کمک کنن.

خبر خوب اینه که این تیم دیتاست و ابزار تستشون رو کاملاً رایگان و عمومی گذاشتن (روی گیت‌هاب به آدرس https://github.com/glee4810/FHIR-AgentBench). یعنی هرکی دلش بخواد می‌تونه بیاد باهاش مدل خودش رو آزمایش کنه یا حتی تحقیقات جدید کنه.

خلاصه الان با این FHIR-AgentBench می‌تونیم بفهمیم کدوم مدل‌های هوش مصنوعی واقعاً آماده ورود به بخش درمان و سلامت دیجیتال هستن و کدوم‌ها هنوز باید بیشتر تمرین کنن! اگه دنبال داستان‌های خفن تو تقاطع پزشکی و هوش مصنوعی هستین، این ماجرای FHIR و این بنچ‌مارک جدید رو اصلاً از دست ندین!

منبع: +