افزایش سرعت کارای GenAI با پشتیبانی میکروکرنل RISC-V توی IREE!

Fall Back

خب بچه‌ها، امروز میخوام یه پروژه باحال رو براتون توضیح بدم که واقعاً خبر خوبیه برای کسایی که با هوش مصنوعی و به‌خصوص GenAI سروکار دارن. GenAI رو که دیگه می‌شناسید؟ یعنی هوش مصنوعی تولیدکننده، مثلاً همون مدل‌هایی که می‌تونن خودشون متن، عکس یا چیزهای دیگه بسازن. این پروژه جدید اومده سرعت کار این مدل‌های سنگین رو بیشتر کنه، اونم با استفاده از یه ترکیب هیجان‌انگیز: میکروکرنل‌های RISC-V توی IREE!

حالا بیاید کمی راجع به این اسامی با هم گپ بزنیم. اول از همه، RISC-V چیه؟ RISC-V یه معماری پردازنده بازمتن (یعنی هرکی بخواد می‌تونه ازش استفاده کنه یا حتی تغییرش بده) و خیلی سریع و به‌صرفه است. بعدش میکروکرنل‌ها رو داریم—این‌ها در واقع بخشای کوچیک و سریع از کد هستن که وظایف خاص رو فوق‌العاده سریع انجام می‌دن، معمولاً دقیقاً برای یه چیپ یا معماری خاص نوشته می‌شن.

و اما IREE چیه؟ IREE یه کامپایلر و محیط اجرا برای مدل‌های یادگیری ماشین هست که بر پایه MLIR ساخته شده (MLIR یعنی یه چارچوب برای ساخت کامپایلرهای تخصصی‌تر واسه یادگیری ماشین). حالا این پروژه اومده کاری کنه که IREE بتونه از میکروکرنل‌های RISC-V استفاده کنه و در نتیجه، سرعت اجرای مدل‌های هوش مصنوعی رو روی سخت‌افزارهای RISC-V به شدت بالا ببره.

ماجرا اینجوری شروع شده که یه تیم باهوش، عملیات مهم linalg contraction ops (یه نوع عمل ریاضی که تو شبکه‌های عصبی خیلی زیاد استفاده میشه) رو که قبلاً توی مدل‌های MLIR بود، منتقل کردن به linalg.mmt4d op مخصوص هدف RISC-V64، تا توی روند اجرای مدل تو IREE، بهینه‌تر بشه. (linalg.mmt4d یه آپ خاص برای ضرب ماتریس‌ها به صورت شدیداً بهینه‌شده است!)

بعد از این، با توسعه دادن میکروکرنل‌های بهینه و اختصاصی برای RISC-V، اومدن و خروجی این پروژه رو دقیق با نسخه‌های upstream خود IREE و برنامه‌ی Llama.cpp روی مدل معروف Llama-3.2-1B-Instruct مقایسه کردن. برای کسایی که نمی‌دونن، Llama-3.2-1B-Instruct یه مدل هوش مصنوعی سبکه که مخصوص آموزش و مکالمه ساخته شده و الان خیلی محبوبه، چون هم خوب یاد می‌گیره و هم سریع جواب می‌ده.

نتیجه چی شد؟ با این روش جدید و پشتیبانی از میکروکرنل RISC-V، تونستن سرعت اجرای مدل‌های GenAI (یعنی هوش مصنوعی تولیدکننده محتوا) رو روی چیپ‌های RISC-V خیلی بیشتر کنن. این یعنی دیگه داستان فقط روی پردازنده‌های گرون قیمت نیست و میشه با چیپ‌های به‌صرفه‌تر هم کارای سنگین هوش مصنوعی انجام داد!

در کل، خلاصه ماجرا این شد: با همکاری المان‌های جدید مثل میکروکرنل‌های سریع و معماری RISC-V و تکنولوژی IREE (که خودش یه بستر تخصصی اجرا برای مدل‌های ML هست)، الان راه بازتر شده که مدل‌های هوش مصنوعی خفن رو با سرعت عالی و هزینه کم روی دستگاه‌های مختلف اجرا کنیم. به نظر من، این یکی از همون پروژه‌هایی هست که در آینده خیلی تاثیر می‌ذاره روی توسعه AI توی دستگاه‌های متنوع و حتی ارزون‌تر.

خلاصه این مقاله رو خوندم، خیلی حال کردم، گفتم زود براتون تعریف کنم! اگه شما هم دنبال سرعت و کارایی توی اجرای مدل‌های هوش مصنوعی هستید، رو این پروژه بیشتر زوم کنین؛ به نظرم آینده‌داره حسابی!

منبع: +