خب بچهها امروز میخوام درباره یه موضوع خیلی جذاب تو دنیای هوش مصنوعی پزشکی گپ بزنم! شاید اسم FHIR یا HL7 FHIR به گوشتون خورده باشه. اگه نه، خلاصه بگم: FHIR یه استاندارد جدیده واسه اینکه اطلاعات سلامت و پزشکی (مثل پرونده بیمارستانی) راحت و استاندارد با هم رد و بدل بشن. مثلاً شما از هر کلینیک یا بیمارستانی که باشین، یه فرمت یکپارچه واسه دادهها دارین و این یعنی کلی کار راحتتر میشه! 🤩
حالا، چی شده؟ دنیای هوش مصنوعی هم حسابی داره سمت این FHIR میره. یعنی الان مدلهای زبانی بزرگ یا همون LLM ها (Large Language Models، مثل ChatGPT) باید بتونن با این سیستم پیچیده کار کنن، اطلاعات رو استخراج کنن و به زبون آدمیزاد جواب بدن!
ولی یه مشکل این وسط هست. تا الآن تستها و معیارهایی که باهاش این هوش مصنوعیها رو میسنجیدن، خیلی واقعی یا بهروز نبودن (یعنی نتونستن نشون بدن تو شرایط واقعی سیستم FHIR چه جوری جواب میدن). واسه همین، دانشمندها اومدن یه سنگ محک جدید رو ساختن به اسم FHIR-AgentBench.
این FHIR-AgentBench چیه؟ یه دیتاست حسابی توپ و بزرگ درست کردن شامل ۲۹۳۱ تا سؤال واقعی بالینی (یعنی سؤالاتی که واقعاً تو بیمارستانها پرسیده میشه) و همه رو بردن تو قالب FHIR. بعد با همین سؤالات اومدن مدلهای مختلف هوش مصنوعی رو تست کردن تا ببینن کی قویتره، کی جواب بهتری میده و اصلاً کجاها گیر میافته.
تو این تستها چی رو بررسی کردن؟
- فرق بین روشهای گرفتن داده: بعضی مدلها مستقیماً با API و سرویسهای FHIR کار میکنن (یعنی مثل یه ربات حرفهای خودشون داده رو فچ میکنن)، بعضیا هم از ابزارهای مخصوص این کار استفاده میکنن.
- نوع ارتباط: یه بار سؤال و یه بار جواب (single-turn) یا چند بار سؤال و جواب پشت سر هم (multi-turn).
- سبک استدلال: بعضیا فقط با زبان طبیعی جواب میدن، بعضیا توی جوابدهی حتی کدنویسی هم میکنن (!) که یعنی از هوش مصنوعی میخوان مستقیم دیتای FHIR رو تحلیل کنه.
نتیجه چی شد؟ فهمیدن که واقعاً کار راحتی نیست! گرفتن دقیق دادهها از منابع FHIR و استدلال درست روشون، دوتا چالش بزرگ هستن که حسابی رو جوابدهی هوش مصنوعی تاثیر میذارن. خلاصه هنوز هوش مصنوعیها باید کلی یاد بگیرن تا بتونن تو دنیای واقعی و تو بیمارستانها واقعاً کمک کنن.
خبر خوب اینه که این تیم دیتاست و ابزار تستشون رو کاملاً رایگان و عمومی گذاشتن (روی گیتهاب به آدرس https://github.com/glee4810/FHIR-AgentBench). یعنی هرکی دلش بخواد میتونه بیاد باهاش مدل خودش رو آزمایش کنه یا حتی تحقیقات جدید کنه.
خلاصه الان با این FHIR-AgentBench میتونیم بفهمیم کدوم مدلهای هوش مصنوعی واقعاً آماده ورود به بخش درمان و سلامت دیجیتال هستن و کدومها هنوز باید بیشتر تمرین کنن! اگه دنبال داستانهای خفن تو تقاطع پزشکی و هوش مصنوعی هستین، این ماجرای FHIR و این بنچمارک جدید رو اصلاً از دست ندین!
منبع: +