بیا با هم یه سفر کنیم داخل دنیای استخراج اطلاعات باحال از متنهایی که تو سایتهای دانشگاهی داروسازی یا حتی شبکههای اجتماعی درباره گیاهان دارویی نوشته شدن! مخصوصاً اینکه میخوایم بفهمیم کدوم قسمت از یه گیاه به چه خاصیت دارویی معروفه و چجوری این اطلاعات رو کلهپاچه وار (یعنی دستهبندی شده و گرافی) نشون بدیم!
اصلاً چرا این کار مهمه؟ خب، مثلاً تو شرایط کرونا یا وقتی دارو نیست و دکتر و بیمارستان هم دمدستت نیستن، کلی آدم میرن سراغ طب سنتی و داروهای گیاهی تا خودشون رو درمان کنن. اما اطلاعات درست و حسابی درباره اینکه هر گیاهی (یا هر بخشی از اون، مثلا ریشه، برگ، پوست،…) چه تاثیری داره پیدا کردنش آسون نیست. مخصوصاً برای کسایی که دنبال درمان جایگزین یا داروهای گیاهی بومی هستن.
حالا مسئله کجاست؟ ما سه چالش داشتیم:
- چجوری اون بخش از جملهها رو که دارن درباره خاصیت دارویی حرف میزنن، پیدا کنیم؟ چون این خاصیتها معمولاً با فعلهایی مثل درمان کردن، کاهش دادن درد، تقویت کردن و … تو جمله بیان میشن. این جملهها رو تو متن «EDU» میگیم؛ یعنی واحدهای سادهای از دیسکورس (همون پارهجمله یا جملههای ساده و کوتاه).
- دوم اینکه، بفهمیم چه ویژگی یا خاصیتی داره مطرح میشه، بدون اینکه خود نویسنده توضیح خاصی داده باشه یا روش برچسب زده باشه. یعنی لازم نیست مثلاً نوشته باشه این خاصیتش «ضد التهابه» و کنارش برچسب بزنه!
- سوم، چطوری بفهمیم این خاصیت به کدوم قسمت گیاه مربوطه، بدون اینکه بریم کل متن رو دستی برچسب بزنیم یا دستهبندی کنیم.
برا حل اینا چه کردیم؟ اول اومدیم یه سری فعل خاص (که بهشون “Solving-Verb” میگیم) که معمولاً خاصیت دارویی رو بیان میکنن، جمع کردیم. این فعلها رو هم بیشتر از یه منبع معروف به اسم HerbMed (یه سایت بینالمللی برای داروهای گیاهی که متعلق به شورای گیاهشناسی آمریکاست) گرفتیم.
قدم دوم: برای اینکه تشخیص بدیم کدوم خاصیتها کناره هم تو جمله اومدن یا با هم ارتباط دارن، روش همبستگی واژگان رو استفاده کردیم. به زبان ساده، وقتی دو یا چند تا کلمه تو متن چند بار کنار هم بیان، احتمالاً یه رابطهای با هم دارن. با این کار یه جدول درست کردیم به اسم جدول MPC (یعنی Medicinal-Property-Concept Table، یه جور لیست که خاصیت و کلمات کلیدی رو با هم تطبیق میده).
حالا کافیه از یه ترفند ساده به اسم “string-matching” استفاده کنی تا تو متن بدجور دنبال این کلمات و عبارات خاصیتدار بگردی و پیداشون کنی!
آخر سر هم از یه مدل آماری باکلاس به اسم “Structural Equation Modeling” استفاده کردیم. بذار راحت بگم: این مدل میاد دادهها (یا همون جملههایی که پیدا کردیم) رو یه جوری کنار هم میذاره که بفهمه ارتباط هر قسمت از گیاه با چه دستهای از خاصیتهاست — اونم کاملاً اتوماتیک و بدون دخالت آدمیزاد!
خب، نتیجهاش چی شد؟ حالا با این روش، میتونیم از کلی متن (حتی از شبکه اجتماعی!) به طور گروهی و دقیق بفهمیم چه بخشهایی از یه گیاه چی کار میکنن و یه گراف اطلاعاتی توپ از خواص گیاهان دارویی درست کنیم که هرکسی راحت بتونه استفاده کنه. مخصوصاً کسایی که دنبال درمان سنتی یا گیاهی هستن و شاید دسترسی راحت به پزشک یا دارو نداشته باشن.
ته ماجرا اینکه: اگه تا حالا فکر میکردی جمعآوری و دستهبندی خواص گیاهان دارویی از تو متنهای مختلف یه پروژه فوق پیچیدهست، الان با این روشها، تقریباً همش اتوماتیک و باحال انجام میشه. بریم دنبال این اطلاعات تا شاید یه روزی به کارمون بیاد!
منبع: +