مدل جدید gpt-oss انویدیا و OpenAI: سرعت خفن ۱.۵ میلیون توکن تو یه ثانیه!

خب رفقا، آماده‌اید براتون از یه اتفاق داغ تو دنیای هوش مصنوعی بگم؟ انویدیا (NVIDIA) و اوپن‌ای‌آی (OpenAI) دوباره ترکوندن و دو تا مدل خفن به اسم‌های gpt-oss-120b و gpt-oss-20b منتشر کردن که واقعاً ماجرا رو برای همه جذاب‌تر کرده! این مدل‌ها مال کساییه که دنبال فناوری روز و سرعت بالا هستن؛ یعنی چه محقق باشی، چه برنامه‌نویس، یا حتی یه استارتاپ.

این مدل‌ها تحت عنوان open-weight اومدن؛ یعنی همه می‌تونن باهاشون هرجوری که دوس دارن کار کنن و حتی تجاری‌ش کنن (لایسنس Apache 2.0 یعنی بدون گیر و گرفتاری مجاز به کار حرفه‌ای و آزمایشگاهی). این یعنی توسعه‌دهنده‌ها محدودیت ندارن و می‌تونن مدل رو روی هر چیزی از گوشی تا سرورهای قوی اجرا کنن.

حالا بیاید سر اصل مطلب: این مدل‌ها روی کارت‌های گرافیکی فول اپدیت و قدرتمند انویدیا H100 آموزش دیدن و بهینه‌سازی شدن واسه کار روی اکوسیستم CUDA (اینجا CUDA یعنی اون پلتفرم نرم‌افزاری انویدیا که به کارت گرافیک اجازه می‌ده کارایی عجیب غریبی انجام بده). ولی اگر دنبال نهایت سرعت باشی، باید بری سراغ سیستم‌های Blackwell-powered GB200 NVL72 که مدل gpt-oss تا ۱.۵ میلیون توکن تو ثانیه پردازش می‌کنه! (توکن هم یعنی بخش کوچیکی از متن، که مدل‌ها به کمکش جمله و پاراگراف می‌فهمن و تولید می‌کنن).

انویدیا و OpenAI با هم گفتن که با gpt-oss، توسعه هوش مصنوعی هم آزادتر می‌شه و هم آمریکا پیشتاز این تکنولوژیه. مدل بزرگ‌تر یعنی gpt-oss-120b تقریباً به پای o4-mini اوپن‌ای‌آی می‌رسه (اینم مدل حرفه‌ای خود اوپن‌ای‌آیه) و حتی می‌تونه روی یه کارت گرافیک ۸۰ گیگ اجرا شه! مدل کوچیک‌تر gpt-oss-20b هم کارایی o3-mini رو داره و رو خیلی از ابزارهای ساده و لبه (edge devices یعنی دستگاه‌های کوچیک مثل لپ‌تاپ یا حتی کامپیوتر خونه‌ای ساده) با فقط ۱۶ گیگ رم اجرا می‌شه. دقت کنید: این مدل‌ها سرعت عجیب دارن و برای کارای لحظه‌ای خیلی مناسبن.

یه چیز باحال دیگه: این دو مدل با کلی فریم‌ورک معروف سازگارن! مثل FlashInfer، Hugging Face (یه پلتفرم معروف برای هوش مصنوعی)، llama.cpp، Ollama، vLLM و حتی TensorRT-LLM انویدیا. یعنی آزادی کامل داری از هر ابزاری خواستی استفاده کنی و هم‌زمان حداکثر بهره‌وری رو بگیری.

از نظر معماری، این مدل‌ها از روش Mixture-of-Experts یا MoE استفاده می‌کنن (MoE یعنی بجای اینکه همه پارامترها همیشه فعال باشن، فقط یه بخش کوچیک و هوشمند فعال می‌شه و این یعنی سرعت و مصرف پایین‌تر). مثلاً gpt-oss-120b با اینکه ۱۱۷ میلیارد پارامتر داره، موقع پردازش هر توکن فقط ۵.۱ میلیاردش واقعاً فعاله. مدل کوچیک‌ترش هم به همین شکل.

یه آپدیت توپ: هر دو مدل کانتکست لِنگث ۱۲۸ هزار دارن! یعنی متن‌های خیلی طولانی رو یه‌جا می‌گیرن، نه مثل مدل‌های قدیمی که جا کم میاوردن. تازه از Rotary Positional Embeddings و فنون توجه (Attention Mechanisms) هم بهره گرفتن که باعث می‌شه هم حافظه و هم قدرتشون بالاتر باشه.

مدل gpt-oss-120b تو تست‌های مختلف، حتی از بعضی مدل‌های اختصاصی اوپن‌ای‌آی (مثل o1 و o4-mini) بهتر عمل کرد مخصوصاً تو حوزه سلامت (HealthBench)، ریاضی (AIME)، و برنامه‌نویسی (Codeforces). مدل کوچیک‌تر هم با وجود سخت‌افزار ساده‌تر، بازم عالیه.

روش آموزش هم ترکیبی بوده؛ از آموزش تحت‌نظر (Supervised Fine-Tuning) تا یادگیری تقویتی (Reinforcement Learning) و کلی تکنیک پیشرفته مثل مدل‌های اختصاصی اوپن‌ای‌آی. حتی تنظیماتی برای مدل هست که بتونی انتخاب کنی با چه سرعت و دقتی فکر کنه (از سطح پایین تا خیلی حرفه‌ای).

وقتی بحث امنیت می‌شه، اوپن‌ای‌آی حسابی این مدل‌ها رو با «چارچوب آمادگی» (Preparedness Framework یعنی استانداردی برای اطمینان از ایمنی مدل) و تست‌های ضد حمله چک کرده. تازه تیم بررسی مستقل هم اومدن و روی روش‌هاشون نظر دادن تا ایمنی در حد مدل‌های بسته همون شرکت باشه.

یه نکته مهم برای برنامه‌نویس‌ها و شرکتا: اوپن‌ای‌آی و انویدیا با کلی پلتفرم گنده مثل Azure، AWS، Vercel، Databricks و غول‌هایی مثل AMD، Cerebras و Groq همکاری کردن تا بشه همه جا مدل‌ها رو راحت اجرا کرد. حتی مایکروسافت هم امکان اجرا کردن مدل gpt-oss-20b رو با ONNX Runtime روی ویندوز اضافه کرده!

در آخر، هدف اوپن‌ای‌آی از این کار، بالا بردن دسترسی به هوش مصنوعی پیشرفته و تشویق نوآوری و توسعه مسئولانه بوده. این یعنی شما هم می‌تونی به راحتی از جدیدترین هوش مصنوعی برای پروژه یا ایده خلاقانه‌ت استفاده کنی؛ دیگه دستت کاملاً بازه! به زودی قراره موج بعدی انقلاب صنعتی رو این مدل‌ها هدایت کنن؛ فقط کافیه تو هم دست به کار شی!

منبع: +