خب بچهها بیاین با هم بریم سراغ یه موضوع باحال: اینکه چجوری میشه با استفاده از ابزارهای بزرگ دیتا و هوش مصنوعی، بفهمیم مردم تو توییتر (که جدیداً اسمش شده X!) چی حس و حالایی دارن. این داستان درباره اینه که چجوری میشه با کمک سیستم Hadoop (که مخصوص پردازش حجمهای عظیم دادههای درهمبرهمه)، احساسات کاربران رو٬ مثلاً شادی، ناراحتی یا عصبانیتشون رو از توی توییتها درآورد. فقطم این نیست! بیاین با هم عمیقتر بشیم.
اول از همه، تو این تحقیق اومدن Framework به اسم Hive رو آوردن وسط — Hive یعنی یه جور سیستم پرسوجو واسه تحلیل سریع دیتاهای خیلی بزرگ و بیساختار داخل Hadoop. خلاصه اینکه جوری ساختنش که بشه راحت باهاش کار کرد و الزامی نیست آدم برنامهنویس حرفهای باشه.
حالا اصل کار اینجاست: مغز ماجرا اسمش هست Graphical Neural Network یا همون GNN. یعنی یه مدل هوش مصنوعی که دادهها رو به شکل گراف درک و تحلیل میکنه. توضیح راحتتر: اگه ماشینهای عادی فقط دونهدونه اطلاعاتو بخونن، این یکی میتونه ارتباطها و شبکههای بین دیتاها رو هم بفهمه! اما یه چالش بزرگ این وسطه: تنظیم کردن این مدل کار حساسیِ و معمولاً بر مبنای سعی و خطاست (مثلاً باید وزنهاش و اون پارامترای عجیبش رو درست بچینی). بهمین دلیل عملکردش همیشه ایدهآل نیست.
برای همین، محققها از یه ایده باحالی استفاده کردن: الگوریتم Modified Elephant Herd Optimization یا MEHO، یعنی بهبود یافته الگوریتم گله فیل ها (که یک روش هوشمند برای پیدا کردن بهترین راهحلهاست و تو دسته Metaheuristicهاست — یعنی روشهای تقریبی و هوشمند برای حل مسائل سخت). این MEHO کمک میکنه وزنها و پارامترای مدل GNN رو جوری بچینه که هم خوب بچرخه (یعنی جستجو کنه) هم زود بیجواب نمونه! خلاصه نسبت به نسخه سادهترش یعنی EHO حسابی پیشرفت داشته: با MEHO مدل خیلی کمتر تو جوابای بد گیر میکنه (۴۰٪ بهتر!) و حتی دقت تشخیص احساسات رو هم ۶.۱٪ آورده بالا.
ولی داستان اینجا تموم نمیشه! برای اینکه نیازی نباشه دیتاست (همون مجموعه دادهها) رو دستی برچسب بزنن، یه سیستم اتومات ساختن که خودش میفهمه هر توییت چه حسی داره. این کار باعث شد آدمها ۸۰٪ کمتر وقت بذارن برای برچسبگذاری. تازه واسه بهترشدن کیفیت دیتاها، اومدن از تکنیک Entropy-based phrase ranking استفاده کردن — Entropy توی دیتا یعنی همون میزان پیچیدگی یا غیرقابل پیشبینی بودن اطلاعات. با این روش تونستن ۷ درصد بهتر تشخیص بدن که هر عبارت چقدر دشوار یا راحت تو کدوم حس میگنجه.
یه نکته دیگه هم درباره استخراج ویژگیها از توییتهاست! توی تحقیق از روشهایی مثل TF-IDF (حساب کردن اینکه یه کلمه تویه توییت چقدر مهمه نسبت به کل دیتاست) و Bag of Words یا BoW (یعنی فقط ببینیم چه کلمههایی تو متن هستن و چند بار اومدن) استفاده کردن تا هم معنی جمله رو دربیارن هم آمار کلمهها رو.
نتیجه؟ با همه این ترفندها، تونستن احساسات توییتر رو خیلی دقیقتر و راحتتر تحلیل کنن! اما خود محققها گفتن که تازه اول راهه و تو آینده میخوان دادههای تصویری و صوتی (یعنی Multi-modal data) رو هم ادغام کنن و MEHO رو برای دیتاهای خیلی خیلی بزرگ حتی سریعتر کنن. خلاصه اگه دنبال تحلیل هوشمند احساسات هستین، این ترکیب GNN + MEHO با کلی بهینهسازی میتونه راه رو براتون باز کنه!
منبع: +