حتماً براتون پیش اومده که فکر کنید مثلاً توی تاریخ فلان دانشمند یا سیاستمدار معروف با کی رفیق بوده یا کجا با کسی ملاقات داشته؟ خب، یه عالمه نکته جالب توی همین برخوردها و ارتباط آدمای معروف پیدا میشه؛ از فرهنگ و سیاست بگیر تا علم و اقتصاد! ولی معمولاً مشکل اینه که اطلاعات زمان و مکان این دیدارها خیلی سخت گیر میاد یا حتی درست ثبت نشده.
حالا چی شده؟ یه گروه از دانشمندها اومدن و واقعاً دست به کار شدن: اونا میلیونها صفحه بیوگرافی تو ویکیپدیا رو زیر و رو کردن که ببینن چه کسایی، کِی و کجا با هم تعامل داشتن. نتیجه چی شد؟ اونا تونستن ۶۸۵,۹۶۶ تا رکورد ارتباطی پیدا کنن که هر کدوم شامل چهار تا جزء اصلیه: شخص اول، شخص دوم، زمان، مکان. یعنی مثلاً “نیوتون با هاوکینز در سال ۱۶۸۰ در کمبریج ملاقات کرده”، چیزی تو همین مایهها.
مشکل اینجاست که این اطلاعات اصلاً جمع و جور و منظم ثبت نشده بودن. یعنی هر تیکهش یه گوشهای از بیوگرافیها ولو بوده، اونم به سبک و سیاق مختلف! اینجا یه تکنیک خیلی هوشمندانه لازم بود.
تیم این تحقیق، یه مدل کاملاً خفن با چند تا امکان اضافی ساختن که حسابی کارش رو راه انداخت. مثلاً از attention mechanisms استفاده کردن – این یعنی مدل یاد میگیره دقیقاً به اون بخش متن که مهمتره، بیشتر توجه کنه و حواسش رو جمع کنه! همچنین multi-task learning رو به کار بردن، که یعنی مدلشون همزمان چند تا کارو یاد میگیره و اینطوری سریعتر و بهتر میشه. و بالاخره feature transfer methods – یا به عبارتی، روشهایی برای انتقال بهترین ویژگیهایی که مدل از یه جا یاد گرفته به جای دیگه.
با این حقهها، تونستن مدلی درست کنن که F1 score معرکهی ۸۶.۵۱٪ گرفته. (F1 score یه معیار برای سنجش دقت مدلهای هوش مصنوعیه که هرچی به ۱۰۰ نزدیکتر باشه یعنی مدل کارت درستتره!)
اما کارشون فقط جمع کردن دیتا نبود! به طور خاص، اومدن ارتباطهای سیاستمدارها رو برسی کردن. هم ارتباطهای درون حزبی، هم بینحزبی، و با استفاده از این دادهها یه جورایی به سراغ بررسی پدیدهی قطبی شدن تو سیاست آمریکا رفتن – یعنی همون polarization که نشون میده سیاستمدارها چقدر تو گروه خودشون گیر افتادن یا با حزبای دیگه تعامل دارن. جالب اینجاست که این جور تحلیل فقط با این حجم دیتای دقیق ممکن میشه و قبلش هیچ راه معقولی براش نبوده.
نکته خیلی باحال و مثبت این کار اینه که همه چی رو هم عمومی کردن. هم کل دیتاست اصلی – یعنی WikiInteraction که ۴۵۰۷ تا رکورد برچسبخورده از تعاملات داره – و هم کدهایی که مدل رو آموزش دادن، هم دیتاهای استخراجشده رو گذاشتن بیرون که هرکسی خواست بتونه استفاده کنه؛ مخصوصاً کسایی که عشق تاریخ یا تحلیل شبکه یا حتی عاشق برنامهنویسی و دادهکاوی هستن!
در کل، این تحقیق نشون میده که تو همین ویکیپدیای خودمون چه دنیای عظیمی از اطلاعات قایم شده و با کمی خلاقیت و هوش مصنوعی میشه از دل متنها، داستان واقعی برخورد آدمهای بزرگ تاریخ رو بیرون کشید! دیگه خودتون تصور کنید چه پروژههای باحالی میشه با این دادهها درست کرد؛ از تحلیل شبکههای اجتماعی تاریخی گرفته تا مدلسازی برخورد دانشمندها و هنرمندها تو دورههای خاص.
منبع: +