داستان هوش مصنوعی تو خوندن متون پزشکی: NER چیه و چرا اینقدر مهمه؟

خب بچه‌ها، بیاید با هم یه گپی بزنیم درباره اینکه هوش مصنوعی چطور داره تو پردازش متن‌های پزشکی بازی رو عوض می‌کنه، مخصوصاً تو زمینه‌ای به اسم NER یا همون Recognizing Named Entities. حالا NER اصلاً چیه؟

NER یا همون تشخیص موجودیت‌های نام‌دار یعنی این که سیستم بتونه توی یه متن بفهمه کدوما اسمن، کدوما اسم داروئن، کدوما بیماریه، یا مثلاً اسم دکتره یا یه سازمان. مثلاً وقتی یه متن پزشکی می‌خونی و نوشته “بیمار با داروی آسپیرین تحت درمان قرار گرفت”، NER خودش باید تشخیص بده “آسپیرین” اسم داروعه، “بیمار” یه فرده و… خلاصه این‌جوری اطلاعات راحت‌تر استخراج می‌شه و کار پزشکا و پژوهشگرها کلی ساده‌تر میشه.

حالا همیشه این‌جوری راحت نبوده‌ها! قبلاً کلی روش سنتی و سخت بودن. مثلاً سیستم‌های قانون‌محور یا Rule-Based Systems که باید کلی قانون دستی براشون تعریف می‌کردی و بهشون یاد می‌دادی چی به چیه، یا مدل‌هایی مثل Word2Vec و GloVe که کلمه‌ها رو به صورت یه عدد یا بردار تو فضا نشون می‌دن (خیلی ساده یعنی هر کلمه رو مدل می‌کنن که بفهمن معنی‌شون تقریباً چیه). تازه مدل‌های دنباله‌ای مثل CRF و HMM هم بودن (این‌ها مدل‌هایی هستن که می‌خوان ساختار و نظم تو داده‌های متنی رو بگیرن)، اما همه‌شون تو فهمیدن متن‌های پزشکی دچار مشکل بودن.

چرا؟ چون زبان پزشکی فوق‌العاده پیچیدست و پر از اصطلاحات خاص و جور واجور. هر دکتری هم ممکنه یه جور بنویسه یا از اصطلاحات متفاوت استفاده کنه. تازه برای این مدل‌های سنتی باید کلی داده برچسب زده شده جمع کنی که خودش کلی دردسره!

اما این وسط هوش مصنوعی جدید با مدل‌های پیشرفته وارد شد! مثلاً مدل‌هایی به اسم “تحولی” یا همون Transformer (که اگر بخوام راحت توضیحش بدم، اینا مدل‌های یادگیری عمیقی هستن که خیلی خوب بلدن معنای کلمات تو جمله و رابطه‌شون با هم رو بفهمن). معروف‌ترینش هم BERT هست. BERT یعنی Bidirectional Encoder Representations from Transformers و این مدل می‌تونه همزمان معنای کلمات جلویی و عقبی یه جمله رو بگیره. یه نسخه خاص‌ترش هم برای پزشکی هست به اسم ClinicalBERT که مخصوص داده‌های پزشکی آموزش دیده.

این مدل‌های تحولی خیلی نسبت به مدل‌های قدیمی بهترن، چون می‌تونن متن‌های بلند و معنای مخفی جمله‌ها رو خیلی دقیق‌تر بفهمن و نتیجه‌شون هم دقیق‌تر درمیاد. مثلاً تو همین مقاله گفته شده که BERT و مدل‌های تخصصی‌ترش مثل ClinicalBERT تو کارهای NER تو حوزه پزشکی تونستن F1 Score بالای ۹۷٪ رو بزنن! (F1 Score یه شاخصه که نشون می‌ده دقت یه مدل چقدره. معمولاً بالای ۹۰٪ خیلی عالیه).

جالب اینجاست که چین تو این تحقیقات خیلی فعاله و بعدش هم آمریکا داره حسابی کار می‌کنه. این حرکت‌ها می‌تونن تاثیر مهمی رو کشورهایی مثل برزیل هم بذارن، مخصوصاً تو سیستم سلامت ملی‌شون (SUS) که می‌خوان از این تکنولوژی‌ها برای طب شخصی‌سازی‌شده و کمک به تصمیم‌گیری بالینی استفاده کنن.

در آخر، کل این تحقیق اومده یه مرور کلی داده از مطالعات قبلی، روش‌شون رو توضیح داده، نتیجه‌هاش رو به نمایش گذاشته و درباره تهدیدهایی که ممکنه دقت تحقیق رو پایین بیاره هم حرف زده، آینده‌ی کار رو هم بررسی کرده. خلاصه، می‌خواد بگه اگر می‌خوای با پیشرفت‌های هوش مصنوعی تو پزشکی همیشه آپدیت بمونی و کارت جلو باشه، باید حواست به NER و مدل‌های جدید باشه.

جمع‌بندی که کنم، NER الان دیگه فقط یه ابزار ساده نیست، بلکه داره پایه کلی از سیستم‌های هوشمند پزشکی رو می‌سازه. مخصوصاً با نسل جدید مدل‌های زبانی مثل BERT و دوستاش که می‌تونن از متن‌های شلوغ و پر رمز و راز پزشکی کلی اطلاعات باحال و دقیق بکشن بیرون و به پزشکا و محقق‌ها کمک کنن تا تصمیم‌های درست‌تری بگیرن. پس اگه عاشق هوش مصنوعی و پزشکی هستی، این حوزه واقعاً داره می‌ترکونه و حسابی ارزش دنبال کردن داره!
منبع: +