خب بچهها، این روزا کلی حرف از هوش مصنوعی (همون AI خودمون) و کاربردش تو آموزش شنیدیم. مثلاً فکر کنین قراره معلمها رو تو تصحیح انبوهی از پاسخهای دانشآموزا کمک کنه.
حالا یکی از چیزای خفن تو این زمینه، سیستمهایی هستن که میتونن به صورت خودکار جوابهای کوتاه (مثل جواب سوالای چهار خطی امتحان) رو تصحیح کنن. به اینا میگن سیستمهای Automated Essay Evaluation یا به اختصار ASAG. یعنی یه مدل میاد خودش نمره میده و دیگه نیازی به نیرو انسانی برای تکتک پاسخها نیست، همین باعث میشه روند تصحیح خیلی سریعتر باشه و کلی وقت صرفهجویی بشه.
ولی یه سوال مهم اینجا پیش میاد: آیا این مدلها واقعاً دقیق هستن؟ منظورم اینه، میتونن درست و منصفانه نمره بدن؟ مخصوصاً تو زبون عربی که کمتر براش دادهی تمرینی (یا همون دیتاست حجیم) داریم. بحث اصلی این مقاله هم همینه: میخوان ببینن سیستمهای تصحیح خودکار چقدر میتونن تو شرایط مختلف که داده زیاد یا کم هست، جواب بدن و چطور میتونیم ازشون بیشترین استفاده رو ببریم.
توی این تحقیق اومدن از یک مدل معروف عربی استفاده کردن به اسم AraBERTv2. حالا BERT یه مدل زبانه که میتونه متن بخونه و کمکم معنی رو بگیره؛ این AraBERTv2 هم نسخه عربیش هست. بچهها مدل رو به شکل خیلی دقیق روی دادهی مخصوص تصحیح آموزش دادن و بعد اومدن سه مدل شبکه عصبی هم کنار این مدل ردیف کردن:
- چندلایه پرسپترون (MLP): یعنی شبکهای که دارای چندین لایه مخفی هست و اطلاعات رو گامبهگام پردازش میکنه.
- شبکه عصبی پیچشی (CNN): این یکی معمولا بیشتر برای عکس استفاده میشه ولی اینجا برا متن هم کاربردش رو تست کردن.
- حافظه بلندمدت کوتاه (LSTM): اینم یه نوع شبکه که برای پردازش دادههای دنبالهدار مثل متن، خیلی خوبه چون میتونه ارتباط جملهها یا کلمات رو بفهمه.
حالا مدلها رو با تعداد ویژگیهای مختلف (مثلاً فقط دو تا ویژگی، یا سه تا، یا چهار تا) امتحان کردن و از یه دیتاست به اسم AS-ARSG که مخصوص جوابهای عربی هست، برای آزمایش استفاده کردن.
نتیجه؟ جالبه بدونین، مدل MLP که فقط با دو تا ویژگی کار میکرد، از بقیه بهتر دراومد! این مدل، کمترین خطا رو داشت (MAE=1.31 که یعنی میانگین فاصله پیشبینی با نمره واقعی تقریباً ۱.۳ نمره بوده) و همبستگی نمرهدهیش با نمره واقعی هم خیلی بالا بوده (Spearman = 0.808 یعنی تقریباً ۸۰ درصد هماهنگ با تصحیح انسانی بوده). مثلاً MAE یعنی “Mean Absolute Error” یا میانگین خطای مطلق و Spearman’s coefficient هم یه جور سنجه همبستگیه که نشون میده رتبهبندی مدل چقدر به واقعیت شباهت داره.
از اون طرف، وقتی تعداد ویژگیها رو زیاد کردن یا از مدل LSTM بیشتر استفاده کردن، دقت و کیفیت کار پایینتر اومد! یعنی بعضی وقتا مدلها با اطلاعات زیادتر، گیج میشن یا حتی دچار افت کارایی میشن—پس همیشه هر چی داده و ویژگی زیادتر باشه، بهتر نیست.
به طور کل، نتیجهی این تحقیق اینه که میشه با تنظیم درست و یه مقدار داده محدود هم، یک سیستم تصحیح هوشمند جواب کوتاه عربی درست کرد که وابستگی خیلی کمی به تصحیح انسانی داشته باشه، یعنی نیازی نباشه همه جوابها رو نفر به نفر بخونه و نمره بده. این خودش یه امید تازه برای آموزش تو کشورهایی با منابع محدود یا تعداد دانشآموز زیاد به حساب میاد و نشون میده حتی وقتی دیتای کم داریم هم، میشه نتیجهی خوب گرفت و کار رو به سیستمهای خودکار سپرد.
تهش خلاصه اینکه اگه یک روزی خواستین پروژه هوش مصنوعی آموزشی راه بندازین و با کمبود داده یا منابع مواجه شدین، ناامید نشین! با مدلهای بهینه و تربیت درست، کلی کار میشه کرد؛ راحتتر، سریعتر و حتی دقیقتر!
منبع: +