درک بهتر پرونده‌های پزشکی چینی با کمک ClinicalBERT و گراف دانشی – هوش مصنوعی چجوری اسامی رو پیدا می‌کنه؟

شاید براتون پیش اومده باشه که سر و کله زدن با کلمات تخصصی پزشکی کلی دردسر داشته باشین. مخصوصاً اگه بحث روی پرونده‌های پزشکی الکترونیکی چینی باشه که خودشون یه دنیای عجیب غریب هستن! خب، اینجور متن‌ها هم پر از اصطلاحات خاص پزشکی‌ان و هم اینکه توی زبان چینی مثل فارسی فاصله بین کلمات همیشه مشخص نیست. خلاصه حسابی کار رو سخت کردن برای مدل‌های زبانی.

حالا بیاین ببینیم توی این مقاله چه راه‌حلی پیشنهاد شده. یه مدل جدید معرفی کردن برای دقیق‌تر انجام دادن کار تشخیص اسامی مهم (یعنی همون NER یا Named Entity Recognition که یعنی پیدا کردن اسم آدم‌ها، داروها، بیماری‌ها و چیزای مهم توی متن). این مدل میاد از ترکیب دو چیز باحال استفاده می‌کنه:

  1. ClinicalBERT یعنی مدل زبانی قوی که از قبل با کلی متن بالینی (متن‌هایی که پزشک‌ها تو بیمارستان باهاش سر و کله می‌زنن) آموزش دیده،
  2. Knowledge Graph یا به قول خودمون “گراف دانشی” که یه جور بانک اطلاعات ارتباطی بین مفاهیم مختلف پزشکیه، مثل اینکه بیماری X به داروی Y ربط داره.

جالب اینجاست که برای اینکه مدل هوشمندتر بشه، میان از تکنیکی به اسم TransE هم استفاده می‌کنن؛ این روش کمک می‌کنه که اطلاعات معنی‌دار از گراف دانشی رو به صورت عددی تبدیل کنن تا توی مدل جا بگیره.

بعدش، مدل علاوه بر این که متن رو بهش می‌دن، چندتا ویژگی دیگه هم براش تعریف می‌کنن، مثل:

  • موقعیت هر حرف
  • دسته‌بندی معنایی اطرافش
  • embedding معنایی (یعنی بردار عددی‌ای که معنای کلمه رو توش ذخیره می‌کنن)

این مدل برچسب‌گذاری رو هم با سیستم BIOES انجام می‌ده؛ یعنی هر بخش از کلمه مشخص می‌شه شروعشه، وسطشه، آخرشه یا یه کلمه تکه!

وقتی این ویژگی‌ها آماده شد، می‌فرستنش تو دل یه شبکه BiLSTM (شبکه حافظه کوتاه‌مدت دوجهته؛ این شبکه‌ها توی فهم دنباله‌ای از اطلاعات خیلی قوی عمل می‌کنن)، و در نهایت یه لایه CRF هم هست که تصمیم نهایی رو در مورد برچسب‌گذاری هر بخش متن می‌گیره.

حالا نتیجه چی شده؟ این روش جدید تونسته توی دیتاست‌های عمومی پزشکی چینی، امتیاز F1 حدود ۸۹.۴۴ درصد بگیره! (F1 امتیازی ترکیبیه بین دقت و کامل بودن نتایج)

یعنی مدل جدیده حسابی از مدل‌های قبلی جلو زده و نشون داده که اگه یه مدل هم دانش تخصصی پزشکی داشته باشه، هم بلد باشه ارتباط مفاهیم رو بفهمه و هم ویژگی‌های ریز حروف رو اضافه کنی، می‌تونه اسامی رو با دقت خیلی بیشتری تشخیص بده. خلاصه این تکنیک قراره واقعاً به سیستم‌های استخراج اطلاعات پزشکی تو دنیای واقعی کمک کنه و نمونه‌اش هم برای پرونده‌های پزشکی الکترونیکی چینی حسابی خوش درخشیده!

اگر می‌خواین از هوش مصنوعی برای جمع‌آوری اطلاعات پزشکی استفاده کنین یا علاقه‌مند به کارای ترکیبی علوم داده و پزشکی هستین، این روش می‌تونه پایه خیلی از پیشرفت‌ها و پروژه‌های آینده باشه.

منبع: +