خب بذارید اول بگم موضوع چیه: یه عده اومدن بررسی کنن که چرا حتی مدلهای هوش مصنوعی خیلی قوی (مثل GPT-4o و LLaMa) گاهی نمیتونن اصطلاحاتی که توی علم پزشکی وجود داره رو درست به شناسهها یا همون آیدیهای مخصوص به خودشون ربط بدن. منظور از آیدی یا identifier همون عدد یا رمزیه که به هر اصطلاح توی دیتابیسهای علمی داده میشه تا گم و گور نشه! مثلاً یه بیماری یه اسم داره، ولی توی بانکهای اطلاعاتی پزشکی یه آیدی اختصاصی هم داره.
حالا اینا چی رو بررسی کردن؟ اومدن دو تا از مهمترین پایگاههای داده پزشکی رو گلچین کردن: یکی “Human Phenotype Ontology” یا همون مرجع ویژگیهای انسانی (که درباره نشونهها، صفات و بیماریهای انسانیه)، و یکی هم “Gene Ontology” که در واقع یه واژهنامه بزرگ درباره ژنها و عملکردهاشونه. همه اینا کلی اصطلاح با آیدی دارن!
این گروه از دو تا مدل زبانی غولآسا استفاده کردن: یکی GPT-4o (همون هوش مصنوعی معروف اوپنایآی که متنو خیلی خوب میفهمه) و یکی LLaMa 3.1 405B که از مدلهای قدرتمند شرکت Meta هست. این مدلها مدعی هستن کلی از پزشکی میفهمن، ولی ظاهرا همهچیز به این سادگی نیست!
تحقیقا چی رو سنجیدن؟ نه تا ویژگی کاندیدا رو بررسی کردن که شامل اینا میشه:
- آشنایی مدل با اون اصطلاح (Term familiarity): یعنی چقدر مدل قبلاً این اصطلاح رو دیده یا باهاش برخورد داشته.
- اینکه اون آیدی یا identifier چقدر مصرف شده.
- ظاهر لغوی یا morphology اصطلاح (یعنی شکل و فرم ظاهری کلمه مثلا اگه خیلی عجیب باشه، مدل کمتر میتونه بفهمه چیه).
- ساختار خود دایرهالمعارف یا ontology structure (مثلاً اگه یه اصطلاح تو شاخههای خیلی عمیق و تخصصی باشه، مدل سختتر میتونه وصلش کنه).
با کلی تحلیل و بررسی (هم تحلیل ساده تک متغیره هم پیچیده چند متغیره – یعنی بررسی تأثیر چندتا عامل با هم)، به این نتیجه رسیدن که از بین همه همین ویژگیها، بیشتر از همه اینکه مدل قبلاً اون آیدیِ خاص رو توی دیتا دیده یا نه، مهمترین عامل موفقیتشه! یعنی اگه مدل توی دادههاش قبلاً با اون identifier مواجه شده باشه، خیلی راحتتر و درستتر میتونه اصطلاحات رو به آیدی ربط بده. عملاً هرچی مدل بیشتر با دیتای درست و حسابی یاد بگیره، درصد خطاش کمتر میشه. پس آموزش مناسب با دیتای غنی، کلید قضیهست.
در کل داستان اینه: مدلهای هوش مصنوعی زیادی هستن که تو پزشکی فوقالعاده عملکرد دارن، اما موقع وصل کردن اسامی و اصطلاحات به آیدیهای خاص دیتابیسی هنوزم گاهی اشتباه دارن. دلیلش هم معمولاً اینه که توی دادههایی که باهاش آموزش دیدن، اون آیدی یا اصطلاح نبوده! خلاصه، اگه میخوایم هوش مصنوعی دقیقتر و کارآمدتر توی پزشکی داشته باشیم، لازمه دیتای آموزشیشون رو هرچه بیشتر و کاملتر بهشون برسونیم. تو این بازی، هیچ چیز جای تجربه قبلی رو نمیگیره!
منبع: +