چجوری با مدل‌های هوشمند، تصحیح جواب‌های کوتاه عربی رو آسون‌تر کنیم؟ یه بررسی خودمونی روی مدل‌های AraBERTv2

خب بچه‌ها، این روزا کلی حرف از هوش مصنوعی (همون AI خودمون) و کاربردش تو آموزش شنیدیم. مثلاً فکر کنین قراره معلم‌ها رو تو تصحیح انبوهی از پاسخ‌های دانش‌آموزا کمک کنه.

حالا یکی از چیزای خفن تو این زمینه، سیستم‌هایی هستن که می‌تونن به صورت خودکار جواب‌های کوتاه (مثل جواب سوالای چهار خطی امتحان) رو تصحیح کنن. به اینا می‌گن سیستم‌های Automated Essay Evaluation یا به اختصار ASAG. یعنی یه مدل میاد خودش نمره می‌ده و دیگه نیازی به نیرو انسانی برای تک‌تک پاسخ‌ها نیست، همین باعث می‌شه روند تصحیح خیلی سریع‌تر باشه و کلی وقت صرفه‌جویی بشه.

ولی یه سوال مهم اینجا پیش میاد: آیا این مدل‌ها واقعاً دقیق هستن؟ منظورم اینه، می‌تونن درست و منصفانه نمره بدن؟ مخصوصاً تو زبون عربی که کمتر براش داده‌ی تمرینی (یا همون دیتاست حجیم) داریم. بحث اصلی این مقاله هم همینه: می‌خوان ببینن سیستم‌های تصحیح خودکار چقدر می‌تونن تو شرایط مختلف که داده زیاد یا کم هست، جواب بدن و چطور می‌تونیم ازشون بیشترین استفاده رو ببریم.

توی این تحقیق اومدن از یک مدل معروف عربی استفاده کردن به اسم AraBERTv2. حالا BERT یه مدل زبانه که می‌تونه متن بخونه و کم‌کم معنی رو بگیره؛ این AraBERTv2 هم نسخه عربیش هست. بچه‌ها مدل رو به شکل خیلی دقیق روی داده‌ی مخصوص تصحیح آموزش دادن و بعد اومدن سه مدل شبکه عصبی هم کنار این مدل ردیف کردن:

چندلایه پرسپترون (MLP): یعنی شبکه‌ای که دارای چندین لایه مخفی هست و اطلاعات رو گام‌به‌گام پردازش می‌کنه.
شبکه عصبی پیچشی (CNN): این یکی معمولا بیشتر برای عکس استفاده میشه ولی اینجا برا متن هم کاربردش رو تست کردن.
حافظه بلندمدت کوتاه (LSTM): اینم یه نوع شبکه که برای پردازش داده‌های دنباله‌دار مثل متن، خیلی خوبه چون می‌تونه ارتباط جمله‌ها یا کلمات رو بفهمه.

حالا مدل‌ها رو با تعداد ویژگی‌های مختلف (مثلاً فقط دو تا ویژگی، یا سه تا، یا چهار تا) امتحان کردن و از یه دیتاست به اسم AS-ARSG که مخصوص جواب‌های عربی هست، برای آزمایش استفاده کردن.

نتیجه؟ جالبه بدونین، مدل MLP که فقط با دو تا ویژگی کار می‌کرد، از بقیه بهتر دراومد! این مدل، کمترین خطا رو داشت (MAE=1.31 که یعنی میانگین فاصله پیش‌بینی با نمره واقعی تقریباً ۱.۳ نمره بوده) و همبستگی نمره‌دهیش با نمره واقعی هم خیلی بالا بوده (Spearman = 0.808 یعنی تقریباً ۸۰ درصد هماهنگ با تصحیح انسانی بوده). مثلاً MAE یعنی “Mean Absolute Error” یا میانگین خطای مطلق و Spearman’s coefficient هم یه جور سنجه همبستگیه که نشون میده رتبه‌بندی مدل چقدر به واقعیت شباهت داره.

از اون طرف، وقتی تعداد ویژگی‌ها رو زیاد کردن یا از مدل LSTM بیشتر استفاده کردن، دقت و کیفیت کار پایین‌تر اومد! یعنی بعضی وقتا مدل‌ها با اطلاعات زیادتر، گیج می‌شن یا حتی دچار افت کارایی می‌شن—پس همیشه هر چی داده و ویژگی زیادتر باشه، بهتر نیست.

به طور کل، نتیجه‌ی این تحقیق اینه که میشه با تنظیم درست و یه مقدار داده محدود هم، یک سیستم تصحیح هوشمند جواب کوتاه عربی درست کرد که وابستگی خیلی کمی به تصحیح انسانی داشته باشه، یعنی نیازی نباشه همه جواب‌ها رو نفر به نفر بخونه و نمره بده. این خودش یه امید تازه برای آموزش تو کشورهایی با منابع محدود یا تعداد دانش‌آموز زیاد به حساب میاد و نشون میده حتی وقتی دیتای کم داریم هم، میشه نتیجه‌ی خوب گرفت و کار رو به سیستم‌های خودکار سپرد.

تهش خلاصه اینکه اگه یک روزی خواستین پروژه هوش مصنوعی آموزشی راه بندازین و با کمبود داده یا منابع مواجه شدین، ناامید نشین! با مدل‌های بهینه و تربیت درست، کلی کار میشه کرد؛ راحت‌تر، سریع‌تر و حتی دقیق‌تر!

منبع: +