شاید براتون پیش اومده باشه که سر و کله زدن با کلمات تخصصی پزشکی کلی دردسر داشته باشین. مخصوصاً اگه بحث روی پروندههای پزشکی الکترونیکی چینی باشه که خودشون یه دنیای عجیب غریب هستن! خب، اینجور متنها هم پر از اصطلاحات خاص پزشکیان و هم اینکه توی زبان چینی مثل فارسی فاصله بین کلمات همیشه مشخص نیست. خلاصه حسابی کار رو سخت کردن برای مدلهای زبانی.
حالا بیاین ببینیم توی این مقاله چه راهحلی پیشنهاد شده. یه مدل جدید معرفی کردن برای دقیقتر انجام دادن کار تشخیص اسامی مهم (یعنی همون NER یا Named Entity Recognition که یعنی پیدا کردن اسم آدمها، داروها، بیماریها و چیزای مهم توی متن). این مدل میاد از ترکیب دو چیز باحال استفاده میکنه:
- ClinicalBERT یعنی مدل زبانی قوی که از قبل با کلی متن بالینی (متنهایی که پزشکها تو بیمارستان باهاش سر و کله میزنن) آموزش دیده،
- Knowledge Graph یا به قول خودمون “گراف دانشی” که یه جور بانک اطلاعات ارتباطی بین مفاهیم مختلف پزشکیه، مثل اینکه بیماری X به داروی Y ربط داره.
جالب اینجاست که برای اینکه مدل هوشمندتر بشه، میان از تکنیکی به اسم TransE هم استفاده میکنن؛ این روش کمک میکنه که اطلاعات معنیدار از گراف دانشی رو به صورت عددی تبدیل کنن تا توی مدل جا بگیره.
بعدش، مدل علاوه بر این که متن رو بهش میدن، چندتا ویژگی دیگه هم براش تعریف میکنن، مثل:
- موقعیت هر حرف
- دستهبندی معنایی اطرافش
- embedding معنایی (یعنی بردار عددیای که معنای کلمه رو توش ذخیره میکنن)
این مدل برچسبگذاری رو هم با سیستم BIOES انجام میده؛ یعنی هر بخش از کلمه مشخص میشه شروعشه، وسطشه، آخرشه یا یه کلمه تکه!
وقتی این ویژگیها آماده شد، میفرستنش تو دل یه شبکه BiLSTM (شبکه حافظه کوتاهمدت دوجهته؛ این شبکهها توی فهم دنبالهای از اطلاعات خیلی قوی عمل میکنن)، و در نهایت یه لایه CRF هم هست که تصمیم نهایی رو در مورد برچسبگذاری هر بخش متن میگیره.
حالا نتیجه چی شده؟ این روش جدید تونسته توی دیتاستهای عمومی پزشکی چینی، امتیاز F1 حدود ۸۹.۴۴ درصد بگیره! (F1 امتیازی ترکیبیه بین دقت و کامل بودن نتایج)
یعنی مدل جدیده حسابی از مدلهای قبلی جلو زده و نشون داده که اگه یه مدل هم دانش تخصصی پزشکی داشته باشه، هم بلد باشه ارتباط مفاهیم رو بفهمه و هم ویژگیهای ریز حروف رو اضافه کنی، میتونه اسامی رو با دقت خیلی بیشتری تشخیص بده. خلاصه این تکنیک قراره واقعاً به سیستمهای استخراج اطلاعات پزشکی تو دنیای واقعی کمک کنه و نمونهاش هم برای پروندههای پزشکی الکترونیکی چینی حسابی خوش درخشیده!
اگر میخواین از هوش مصنوعی برای جمعآوری اطلاعات پزشکی استفاده کنین یا علاقهمند به کارای ترکیبی علوم داده و پزشکی هستین، این روش میتونه پایه خیلی از پیشرفتها و پروژههای آینده باشه.
منبع: +