اگه تا حالا براتون سوال شده که دانشمندان چطوری میتونن بفهمن کدوم مواد شیمیایی یا داروها برای کبد ضرر داره، بدون اینکه لازم باشه تکتک مقالههای علمی رو بخونن، این مقاله دقیقاً همون چیزیه که دنبالش بودین! واقعاً حجم اطلاعات علمی تو زمینه سمشناسی (یعنی بررسی موادی که ممکنه برای بدن ضرر داشته باشن) خیلی سریع داره زیاد میشه و خب واقعاً نمیشه انتظار داشت کسی بتونه همهشو خودش بخونه و تحلیل کنه. دقیقاً همینجا هوش مصنوعی و راههای باحالتری مثل text mining یا همون استخراج اطلاعات از متنهای بزرگ، میان وسط و اوضاع رو زیر و رو میکنن.
هدف اصلی این تحقیق این بوده که از بین بیشتر از ۵۰ هزار تا ماده شیمیایی، بتونن اونایی رو که ممکنه برای کبد سمی باشن (بهش میگن hepatoxicants، یعنی موادی که به کبد آسیب میزنن)، به طور خودکار شناسایی کنن. برای این کار، بچههای تیم تحقیقاتی سه رویکرد باحال رو امتحان کردن:
۱. text mining: یعنی با کمک ابزارای کامپیوتری، اطلاعات رو مستقیم از متن مقالههای علمی درمیارن. یعنی به جای اینکه خود آدم مقاله بخونه، هوش مصنوعی میشینه براتون همهچیو شخم میزنه و داده جمع میکنه.
۲. word embeddings: این یه تکنیک هوش مصنوعیه که میاد لغتها رو به شکل عدد و بردار درمیاره و سعی میکنه بفهمه مثلا چه لغتهایی تو چه کانتکستی بیشتر کنار هم به کار میرن. خلاصه، یه جور ریاضیبازی با لغات تا معنی و رابطههاشون رو بفهمه!
۳. large language models: مثلاً ChatGPT یا مدلهای بزرگ زبانی که خودشون میتونن متن تولید کنن یا معنی جملههارو درست بفهمن. (مثلاً همونهایی که مثل یه آدم میتونن مکالمه کنن یا سوال جواب بدن)
حالا نکته جذاب اینجاست که اومدن برای هرکدوم از اون ۵۰ هزار ماده، یه امتیاز «سمیت برای کبد» (hepatotoxicity score) درست کردن و با این سه روش حساب کردن که هر کدوم چقدر خوبن. برای اینکه دقیقتر مقایسه کنن، اومدن روی یه مورد واقعی هم امتحان کردن که اسمش هست «آسیب کبدی ناشی از دارو» یا DILI (Drug-Induced Liver Injury—یعنی اون خسارتی که ممکنه بعضی داروها به کبد بزنن).
نتایجی که به دست آوردن خیلی جالب بود! روش text mining تونست حدوداً به دقت ۸۰ درصدی برسه (که تو علم بهش میگن AUC=0.8)، ولی وقتی سراغ مدلهای زبانی بزرگ رفتن، حتی یه ذره بهتر شد و دقتش به ۸۵ درصد رسید (AUC=0.85). این مدلها چون معنی و مفهوم جملات رو بهتر میفهمن، کارشون تو این کار دقیقتر از بقیه بود. ولی باحالتر از همه اینکه وقتی این روشها رو باهم ترکیب کردن، یه نتیجه حتی بهتر گرفتن و به دقت ۸۷ درصدی رسیدن! (AUC=0.87)
یه نکته خوب دیگه اینه که همه این دادهها و نتایج رو طوری گذاشتن که هرکسی که بخواد، میتونه دانلود کنه و تو تحقیقات خودش استفاده کنه. برای جامعه علمی یعنی فوقالعاده!
خلاصش رو بخواین: حالا دیگه هوش مصنوعی و استخراج متن از مقالههای علمی واقعاً داره نشون میده که میتونه خیلی راحت و سریع داروها و مواد شیمیایی خطرناک برای کبد رو پیدا کنه. برار همه روشها، مدلهای زبانی بزرگ (مثلاً همین هوش مصنوعیهایی که میتونن باهاش چت کنیم) بهترین کارایی رو نشون دادن. اگه تحقیقات بیشتری بشه، این روشها زندگی خیلی از بیماران و حتی داروسازها رو راحتتر و امنتر میکنه. خلاصه که آینده با این هوش مصنوعیها خیلی هیجانانگیزه!
منبع: +