بیا با هم یه دیتاست جدید رو بشناسیم که احتمالاً حسابی به درد کسایی میخوره که دنبال تمرین سؤالات دانشگاهی هستن یا حتی میخوان مدلهای هوش مصنوعی رو توی فضای آموزش دانشگاهی بسنجن. اسم این دیتاست OpenStaxQAئه (که Q و A یعنی همون سؤال و جواب). یه نکته جالب اینجاست که OpenStaxQA فقط انگلیسی نیست، اسپانیایی و لهستانی هم توش هست! یعنی عملاً داریم با یه مجموعه سؤال چندزبونه سر و کار داریم.
کل ماجرا اینه که بچهها اومدن ۴۳ تا کتاب درسی دانشگاهی رو که به صورت اوپن سورس (یعنی رایگان و بازمتن) بودن جمع کردن و ازشون سؤالاتی استخراج کردن. همه این کتابا هم با یه لایسنس Creative Commons منتشر شدن، یعنی هر کسی، هر جایی، هر طور دلش بخواد میتونه ازشون استفاده کنه و نگرانی بابت حق نشر نداره.
حالا این دیتاست اومده به طور تخصصی برای مدلهای هوش مصنوعی بزرگ یا همون Large Language Models (LLMs) ساخته شده. مدلهایی با حدود ۷ میلیارد پارامتر! (پارامتر یعنی همون تنظیمات و اعدادی که مغز مدل رو تشکیل میدن.) نویسندهها مدلها رو با این دادهها فاینتیون کردن، یعنی دوباره رو دیتاست خودشون آموزش دادن تا مدل تو جواب دادن به سؤالات دانشگاهی بهتر عمل کنه. این کار رو با یه روش کممصرف به اسم QLoRa انجام دادن. QLoRa یه جور تکنیک هوشمندانهست که باعث میشه مدل بدون نیاز به منابع خیلی زیاد، راحتتر و سریعتر فاینتیون بشه.
ولی اینا فقط به OpenStaxQA قانع نشدن! اومدن مدلشون رو بدون هیچ آموزشی (یعنی zero-shot) روی یه دیتاست دیگه به اسم AI2 reasoning challenge هم تست کردن تا ببینن مدل واقعا میتونه منطق و استدلالش رو برای حل سؤالهای جدید هم به کار بگیره یا نه. Zero-shot evaluation یعنی امتحان کردن مدل روی دادههایی که اصلاً تو آموزش ندیده.
آخرش هم به این دقت کردن که دیتاستهایی مثل OpenStaxQA چه تأثیرات مثبت یا منفی میتونن داشته باشن؛ مثلاً این که چقدر میتونن به پیشرفت آموزش و دموکراتیک شدن دسترسی به منابع آموزشی کمک کنن و یا بحثهایی مثل کپیرایت و سوءاستفاده از دیتاست رو هم مطرح کردن.
خلاصه داستان اینه که تیم OpenStaxQA یه گام بزرگ برداشته تا دیتاستهایی بسازه که هم رایگان باشن، هم چندزبونی، و مخصوص آموزش دانشگاهی؛ این یعنی ابزار خیلی خوبی هم برای دانشجوها و استادها، هم برای کسایی که با هوش مصنوعی و مدلهای زبانی سروکار دارن!
منبع: +