معرفی دیتاست OpenStaxQA: مجموعه سؤال‌های چندزبونه مخصوص دانشگاهیا!

بیا با هم یه دیتاست جدید رو بشناسیم که احتمالاً حسابی به درد کسایی می‌خوره که دنبال تمرین سؤالات دانشگاهی هستن یا حتی می‌خوان مدل‌های هوش مصنوعی رو توی فضای آموزش دانشگاهی بسنجن. اسم این دیتاست OpenStaxQAئه (که Q و A یعنی همون سؤال و جواب). یه نکته جالب اینجاست که OpenStaxQA فقط انگلیسی نیست، اسپانیایی و لهستانی هم توش هست! یعنی عملاً داریم با یه مجموعه سؤال چندزبونه سر و کار داریم.

کل ماجرا اینه که بچه‌ها اومدن ۴۳ تا کتاب درسی دانشگاهی رو که به صورت اوپن سورس (یعنی رایگان و بازمتن) بودن جمع کردن و ازشون سؤالاتی استخراج کردن. همه این کتابا هم با یه لایسنس Creative Commons منتشر شدن، یعنی هر کسی، هر جایی، هر طور دلش بخواد می‌تونه ازشون استفاده کنه و نگرانی بابت حق نشر نداره.

حالا این دیتاست اومده به طور تخصصی برای مدل‌های هوش مصنوعی بزرگ یا همون Large Language Models (LLMs) ساخته شده. مدل‌هایی با حدود ۷ میلیارد پارامتر! (پارامتر یعنی همون تنظیمات و اعدادی که مغز مدل رو تشکیل می‌دن.) نویسنده‌ها مدل‌ها رو با این داده‌ها فاین‌تیون کردن، یعنی دوباره رو دیتاست خودشون آموزش دادن تا مدل تو جواب دادن به سؤالات دانشگاهی بهتر عمل کنه. این کار رو با یه روش کم‌مصرف به اسم QLoRa انجام دادن. QLoRa یه جور تکنیک هوشمندانه‌ست که باعث میشه مدل بدون نیاز به منابع خیلی زیاد، راحت‌تر و سریع‌تر فاین‌تیون بشه.

ولی اینا فقط به OpenStaxQA قانع نشدن! اومدن مدل‌شون رو بدون هیچ آموزشی (یعنی zero-shot) روی یه دیتاست دیگه به اسم AI2 reasoning challenge هم تست کردن تا ببینن مدل واقعا می‌تونه منطق و استدلالش رو برای حل سؤال‌های جدید هم به کار بگیره یا نه. Zero-shot evaluation یعنی امتحان کردن مدل روی داده‌هایی که اصلاً تو آموزش ندیده.

آخرش هم به این دقت کردن که دیتاست‌هایی مثل OpenStaxQA چه تأثیرات مثبت یا منفی می‌تونن داشته باشن؛ مثلاً این که چقدر می‌تونن به پیشرفت آموزش و دموکراتیک شدن دسترسی به منابع آموزشی کمک کنن و یا بحث‌هایی مثل کپی‌رایت و سو‌ءاستفاده از دیتاست رو هم مطرح کردن.

خلاصه داستان اینه که تیم OpenStaxQA یه گام بزرگ برداشته تا دیتاست‌هایی بسازه که هم رایگان باشن، هم چندزبونی، و مخصوص آموزش دانشگاهی؛ این یعنی ابزار خیلی خوبی هم برای دانشجوها و استادها، هم برای کسایی که با هوش مصنوعی و مدل‌های زبانی سروکار دارن!

منبع: +