اگه تا حالا پیش اومده که یه متن کلی بحث و استدلال جلوت باشه، حتماً میدونی خلاصه کردنش کار سادهای نیست. مثلاً وقتی یه مناظره یا دعوای سیاسی توی مجلس بگنجد، کلی صحبت و توضیح و دلیل میاد وسط که نمیتونی راحت دو خط جمعش کنی. حالا این مقاله دقیقاً اومده سراغ این موضوع که چطور میشه خلاصه کردن این جور متنا رو آسونتر و هوشمندتر کرد.
خلاصهسازی متن یا Text Summarization یعنی اینکه مهمترین حرفای یه متن رو بدون حاشیه اضافهگویی جمع کنی. دو تا روش معروف براش هست: extractive و abstractive. “Extractive” یعنی یه سری جمله از خود متن انتخاب کنی و همونا رو به عنوان خلاصه ردیف کنی. ولی روش “abstractive” یعنی با هوش مصنوعی سعی کنی مثل یه آدم، مفهوم رو بفهمی و خلاصه رو با کلمات جدیدتر و شاید خلاصهتر بنویسی. (یعنی دیگه فقط بچسبی به جملههای اصلی نباشی، خودت هم جملهسازی کنی.) هر کدومشون بدیهی محدودیتهای خودشون رو دارن و خلاصههای اونا معمولاً یا زیادی خشکن یا مهمترین نکات جا میمونن!
کار جالبی که این مقاله کرده، ترکیب هر دوتا روش بوده! گفتن بیایم هم از قدرت روش استخراجی استفاده کنیم و هم از خلاقیت روش انتزاعی. با این، تقریباً هم جامعیت بهتری داریم و هم کیفیت خلاصه بالاتر میره و یه چیزی درمیاد که واقعاً مفهوم متن رو میده بدون اینکه کلی حرف اضافی توش باشه.
برای پیادهسازی این ایده، اومدن سراغ مدل BERT (که مخفف Bidirectional Encoder Representations from Transformers هست. یعنی یه مدل خیلی خفن که با استفاده از ساختار ترنسفورمر میتونه متن رو از هر دو سمت بخونه و تحلیل کنه—کلاً یکی از ستارههای هوش مصنوعی و یادگیری عمیق تو بحث زبان!) و یادگیری انتقالی یا Transfer Learning رو هم چسبوندن بهش. Transfer Learning یعنی اول یه مدل رو روی یه دیتای بزرگ آموزش میدن (مثلاً کلی متن عمومی)، بعدش اون دانش رو میارن روی یه دیتای جدید که مخصوص کار خودشونه و اونجا کمی بیشتر آموزش میدن.
برای آزمایش، اومدن دو تا مناظره تو پارلمان بریتانیا رو گرفتن. دادهاشون رو با این مدل خلاصه کردن و بعد با معیارهایی به اسم ROUGE سنجیدن که ببینن خلاصهها چقدر خوبه. (ROUGE یه سری عدد میده که نشون میده خلاصه چقد به متن اصلی نزدیکه. مثلاً ROUGE-1 یعنی مقایسه توکنها یا تککلمهایها، ROUGE-2 برای جفتکلمهایها و ROUGE-L هم برای طولانیترین دنباله مشترک تو متن و خلاصه.) تو مناظره اول، امتیازاشون شد ۳۰.۱ برای ROUGE-1، عدد ۹.۶ برای ROUGE-2 و ۲۷.۹ برای ROUGE-L. توی مناظره دوم هم ۳۶.۲، ۱۱.۸ و ۳۱.۵ گرفتن که نشون میده خلاصههاشون واقعا به مفهوم اصلی وفادار بودن.
در کل، این مقاله نشون میده با ترکیب هوشمندانه بهترین مدلهای هوش مصنوعی و روشای مختلف خلاصهسازی، میشه بحثهای خیلی پیچیده (مثلاً متون سیاسی یا آکادمیک سنگین) رو هم خلاصه کرد طوری که هیچ نکته مهمی جام نمونه! دقیقا همون چیزی که خیلی از ماها واسه مطالعه سریعتر یا جمعبندی بحثا بهش نیاز داریم. پس دفعه بعد که یه متن شلوغ و پر استدلال بهت خورد، شاید یه همچین مدلهایی حسابی به کارت بیان!
منبع: +