تحلیل احساسات توییت‌ها با ترکیب هوش مصنوعی و ترفندهای باحال دیتا!

خب بچه‌ها بیاین با هم بریم سراغ یه موضوع باحال: اینکه چجوری میشه با استفاده از ابزارهای بزرگ دیتا و هوش مصنوعی، بفهمیم مردم تو توییتر (که جدیداً اسمش شده X!) چی حس و حالایی دارن. این داستان درباره اینه که چجوری میشه با کمک سیستم Hadoop (که مخصوص پردازش حجم‌های عظیم داده‌های درهم‌برهمه)، احساسات کاربران رو٬ مثلاً شادی، ناراحتی یا عصبانیتشون رو از توی توییت‌ها درآورد. فقطم این نیست! بیاین با هم عمیق‌تر بشیم.

اول از همه، تو این تحقیق اومدن Framework به اسم Hive رو آوردن وسط — Hive یعنی یه جور سیستم پرس‌وجو واسه تحلیل سریع دیتاهای خیلی بزرگ و بی‌ساختار داخل Hadoop. خلاصه اینکه جوری ساختنش که بشه راحت باهاش کار کرد و الزامی نیست آدم برنامه‌نویس حرفه‌ای باشه.

حالا اصل کار اینجاست: مغز ماجرا اسمش هست Graphical Neural Network یا همون GNN. یعنی یه مدل هوش مصنوعی که داده‌ها رو به شکل گراف درک و تحلیل می‌کنه. توضیح راحت‌تر: اگه ماشین‌های عادی فقط دونه‌دونه اطلاعاتو بخونن، این یکی می‌تونه ارتباط‌ها و شبکه‌های بین دیتاها رو هم بفهمه! اما یه چالش بزرگ این وسطه: تنظیم کردن این مدل کار حساسیِ و معمولاً بر مبنای سعی و خطاست (مثلاً باید وزن‌هاش و اون پارامترای عجیبش رو درست بچینی). بهمین دلیل عملکردش همیشه ایده‌آل نیست.

برای همین، محقق‌ها از یه ایده باحالی استفاده کردن: الگوریتم Modified Elephant Herd Optimization یا MEHO، یعنی بهبود یافته الگوریتم گله فیل ها (که یک روش هوشمند برای پیدا کردن بهترین راه‌حل‌هاست و تو دسته Metaheuristicهاست — یعنی روش‌های تقریبی و هوشمند برای حل مسائل سخت). این MEHO کمک می‌کنه وزن‌ها و پارامترای مدل GNN رو جوری بچینه که هم خوب بچرخه (یعنی جستجو کنه) هم زود بی‌جواب نمونه! خلاصه نسبت به نسخه ساده‌ترش یعنی EHO حسابی پیشرفت داشته: با MEHO مدل خیلی کمتر تو جوابای بد گیر می‌کنه (۴۰٪ بهتر!) و حتی دقت تشخیص احساسات رو هم ۶.۱٪ آورده بالا.

ولی داستان اینجا تموم نمیشه! برای اینکه نیازی نباشه دیتاست (همون مجموعه داده‌ها) رو دستی برچسب بزنن، یه سیستم اتومات ساختن که خودش می‌فهمه هر توییت چه حسی داره. این کار باعث شد آدم‌ها ۸۰٪ کمتر وقت بذارن برای برچسب‌گذاری. تازه واسه بهترشدن کیفیت دیتاها، اومدن از تکنیک Entropy-based phrase ranking استفاده کردن — Entropy توی دیتا یعنی همون میزان پیچیدگی یا غیرقابل پیش‌بینی بودن اطلاعات. با این روش تونستن ۷ درصد بهتر تشخیص بدن که هر عبارت چقدر دشوار یا راحت تو کدوم حس می‌گنجه.

یه نکته دیگه هم درباره استخراج ویژگی‌ها از توییت‌هاست! توی تحقیق از روش‌هایی مثل TF-IDF (حساب کردن اینکه یه کلمه تویه توییت چقدر مهمه نسبت به کل دیتاست) و Bag of Words یا BoW (یعنی فقط ببینیم چه کلمه‌هایی تو متن هستن و چند بار اومدن) استفاده کردن تا هم معنی جمله رو دربیارن هم آمار کلمه‌ها رو.

نتیجه؟ با همه این ترفندها، تونستن احساسات توییتر رو خیلی دقیق‌تر و راحت‌تر تحلیل کنن! اما خود محقق‌ها گفتن که تازه اول راهه و تو آینده می‌خوان داده‌های تصویری و صوتی (یعنی Multi-modal data) رو هم ادغام کنن و MEHO رو برای دیتاهای خیلی خیلی بزرگ حتی سریع‌تر کنن. خلاصه اگه دنبال تحلیل هوشمند احساسات هستین، این ترکیب GNN + MEHO با کلی بهینه‌سازی می‌تونه راه رو براتون باز کنه!

منبع: +