چطوری از متن‌ها تو شبکه‌های اجتماعی اطلاعات باحال درباره خواص گیاهان دارویی بیرون بکشیم؟

بیا با هم یه سفر کنیم داخل دنیای استخراج اطلاعات باحال از متن‌هایی که تو سایت‌های دانشگاهی داروسازی یا حتی شبکه‌های اجتماعی درباره گیاهان دارویی نوشته شدن! مخصوصاً اینکه می‌خوایم بفهمیم کدوم قسمت از یه گیاه به چه خاصیت دارویی معروفه و چجوری این اطلاعات رو کله‌پاچه وار (یعنی دسته‌بندی شده و گرافی) نشون بدیم!

اصلاً چرا این کار مهمه؟ خب، مثلاً تو شرایط کرونا یا وقتی دارو نیست و دکتر و بیمارستان هم دم‌دستت نیستن، کلی آدم میرن سراغ طب سنتی و داروهای گیاهی تا خودشون رو درمان کنن. اما اطلاعات درست و حسابی درباره اینکه هر گیاهی (یا هر بخشی از اون، مثلا ریشه، برگ، پوست،…) چه تاثیری داره پیدا کردنش آسون نیست. مخصوصاً برای کسایی که دنبال درمان جایگزین یا داروهای گیاهی بومی هستن.

حالا مسئله کجاست؟ ما سه چالش داشتیم:

چجوری اون بخش از جمله‌ها رو که دارن درباره خاصیت دارویی حرف می‌زنن، پیدا کنیم؟ چون این خاصیت‌ها معمولاً با فعل‌هایی مثل درمان کردن، کاهش دادن درد، تقویت کردن و … تو جمله بیان می‌شن. این جمله‌ها رو تو متن «EDU» می‌گیم؛ یعنی واحدهای ساده‌ای از دیسکورس (همون پاره‌جمله یا جمله‌های ساده و کوتاه).
دوم اینکه، بفهمیم چه ویژگی یا خاصیتی داره مطرح می‌شه، بدون اینکه خود نویسنده توضیح خاصی داده باشه یا روش برچسب زده باشه. یعنی لازم نیست مثلاً نوشته باشه این خاصیتش «ضد التهابه» و کنارش برچسب بزنه!
سوم، چطوری بفهمیم این خاصیت به کدوم قسمت گیاه مربوطه، بدون اینکه بریم کل متن رو دستی برچسب بزنیم یا دسته‌بندی کنیم.

برا حل اینا چه کردیم؟ اول اومدیم یه سری فعل خاص (که بهشون “Solving-Verb” می‌گیم) که معمولاً خاصیت دارویی رو بیان می‌کنن، جمع کردیم. این فعل‌ها رو هم بیشتر از یه منبع معروف به اسم HerbMed (یه سایت بین‌المللی برای داروهای گیاهی که متعلق به شورای گیاه‌شناسی آمریکاست) گرفتیم.

قدم دوم: برای اینکه تشخیص بدیم کدوم خاصیت‌ها کناره هم تو جمله اومدن یا با هم ارتباط دارن، روش همبستگی واژگان رو استفاده کردیم. به زبان ساده، وقتی دو یا چند تا کلمه تو متن چند بار کنار هم بیان، احتمالاً یه رابطه‌ای با هم دارن. با این کار یه جدول درست کردیم به اسم جدول MPC (یعنی Medicinal-Property-Concept Table، یه جور لیست که خاصیت‌ و کلمات کلیدی رو با هم تطبیق می‌ده).

حالا کافیه از یه ترفند ساده‌ به اسم “string-matching” استفاده کنی تا تو متن بدجور دنبال این کلمات و عبارات خاصیت‌دار بگردی و پیداشون کنی!

آخر سر هم از یه مدل آماری باکلاس به اسم “Structural Equation Modeling” استفاده کردیم. بذار راحت بگم: این مدل میاد داده‌ها (یا همون جمله‌هایی که پیدا کردیم) رو یه جوری کنار هم می‌ذاره که بفهمه ارتباط هر قسمت از گیاه با چه دسته‌ای از خاصیت‌هاست — اونم کاملاً اتوماتیک و بدون دخالت آدمیزاد!

خب، نتیجه‌اش چی شد؟ حالا با این روش، می‌تونیم از کلی متن (حتی از شبکه اجتماعی!) به طور گروهی و دقیق بفهمیم چه بخش‌هایی از یه گیاه چی کار می‌کنن و یه گراف اطلاعاتی توپ از خواص گیاهان دارویی درست کنیم که هرکسی راحت بتونه استفاده کنه. مخصوصاً کسایی که دنبال درمان سنتی یا گیاهی هستن و شاید دسترسی راحت به پزشک یا دارو نداشته باشن.

ته ماجرا اینکه: اگه تا حالا فکر می‌کردی جمع‌آوری و دسته‌بندی خواص گیاهان دارویی از تو متن‌های مختلف یه پروژه فوق پیچیده‌ست، الان با این روش‌ها، تقریباً همش اتوماتیک و باحال انجام می‌شه. بریم دنبال این اطلاعات تا شاید یه روزی به کارمون بیاد!

منبع: +