آدمای معروف کجا و کی همدیگه رو دیدن؟ داستان سرگرم‌کننده‌ی کشف ارتباط‌ها توی ویکی‌پدیا!

Fall Back

حتماً براتون پیش اومده که فکر کنید مثلاً توی تاریخ فلان دانشمند یا سیاستمدار معروف با کی رفیق بوده یا کجا با کسی ملاقات داشته؟ خب، یه عالمه نکته جالب توی همین برخوردها و ارتباط آدمای معروف پیدا میشه؛ از فرهنگ و سیاست بگیر تا علم و اقتصاد! ولی معمولاً مشکل اینه که اطلاعات زمان و مکان این دیدارها خیلی سخت گیر میاد یا حتی درست ثبت نشده.

حالا چی شده؟ یه گروه از دانشمندها اومدن و واقعاً دست به کار شدن: اونا میلیون‌ها صفحه بیوگرافی تو ویکی‌پدیا رو زیر و رو کردن که ببینن چه کسایی، کِی و کجا با هم تعامل داشتن. نتیجه چی شد؟ اونا تونستن ۶۸۵,۹۶۶ تا رکورد ارتباطی پیدا کنن که هر کدوم شامل چهار تا جزء اصلیه: شخص اول، شخص دوم، زمان، مکان. یعنی مثلاً “نیوتون با هاوکینز در سال ۱۶۸۰ در کمبریج ملاقات کرده”، چیزی تو همین مایه‌ها.

مشکل اینجاست که این اطلاعات اصلاً جمع و جور و منظم ثبت نشده بودن. یعنی هر تیکه‌ش یه گوشه‌ای از بیوگرافی‌ها ولو بوده، اونم به سبک و سیاق مختلف! این‌جا یه تکنیک خیلی هوشمندانه لازم بود.

تیم این تحقیق، یه مدل کاملاً خفن با چند تا امکان اضافی ساختن که حسابی کارش رو راه انداخت. مثلاً از attention mechanisms استفاده کردن – این یعنی مدل یاد می‌گیره دقیقاً به اون بخش متن که مهم‌تره، بیشتر توجه کنه و حواسش رو جمع کنه! همچنین multi-task learning رو به کار بردن، که یعنی مدلشون همزمان چند تا کارو یاد می‌گیره و این‌طوری سریع‌تر و بهتر میشه. و بالاخره feature transfer methods – یا به عبارتی، روش‌هایی برای انتقال بهترین ویژگی‌هایی که مدل از یه جا یاد گرفته به جای دیگه.

با این حقه‌ها، تونستن مدلی درست کنن که F1 score معرکه‌ی ۸۶.۵۱٪ گرفته. (F1 score یه معیار برای سنجش دقت مدل‌های هوش مصنوعیه که هرچی به ۱۰۰ نزدیک‌تر باشه یعنی مدل کارت درست‌تره!)

اما کارشون فقط جمع کردن دیتا نبود! به طور خاص، اومدن ارتباط‌های سیاستمدارها رو برسی کردن. هم ارتباط‌های درون حزبی، هم بین‌حزبی، و با استفاده از این داده‌ها یه جورایی به سراغ بررسی پدیده‌ی قطبی شدن تو سیاست آمریکا رفتن – یعنی همون polarization که نشون می‌ده سیاستمدارها چقدر تو گروه خودشون گیر افتادن یا با حزبای دیگه تعامل دارن. جالب اینجاست که این جور تحلیل فقط با این حجم دیتای دقیق ممکن میشه و قبلش هیچ راه معقولی براش نبوده.

نکته خیلی باحال و مثبت این کار اینه که همه چی رو هم عمومی کردن. هم کل دیتاست اصلی – یعنی WikiInteraction که ۴۵۰۷ تا رکورد برچسب‌خورده از تعاملات داره – و هم کدهایی که مدل رو آموزش دادن، هم دیتاهای استخراج‌شده رو گذاشتن بیرون که هرکسی خواست بتونه استفاده کنه؛ مخصوصاً کسایی که عشق تاریخ یا تحلیل شبکه یا حتی عاشق برنامه‌نویسی و داده‌کاوی هستن!

در کل، این تحقیق نشون می‌ده که تو همین ویکی‌پدیای خودمون چه دنیای عظیمی از اطلاعات قایم شده و با کمی خلاقیت و هوش مصنوعی می‌شه از دل متن‌ها، داستان واقعی برخورد آدم‌های بزرگ تاریخ رو بیرون کشید! دیگه خودتون تصور کنید چه پروژه‌های باحالی میشه با این داده‌ها درست کرد؛ از تحلیل شبکه‌های اجتماعی تاریخی گرفته تا مدل‌سازی برخورد دانشمندها و هنرمندها تو دوره‌های خاص.

منبع: +