خب رفقا، آمادهاید براتون از یه اتفاق داغ تو دنیای هوش مصنوعی بگم؟ انویدیا (NVIDIA) و اوپنایآی (OpenAI) دوباره ترکوندن و دو تا مدل خفن به اسمهای gpt-oss-120b و gpt-oss-20b منتشر کردن که واقعاً ماجرا رو برای همه جذابتر کرده! این مدلها مال کساییه که دنبال فناوری روز و سرعت بالا هستن؛ یعنی چه محقق باشی، چه برنامهنویس، یا حتی یه استارتاپ.
این مدلها تحت عنوان open-weight اومدن؛ یعنی همه میتونن باهاشون هرجوری که دوس دارن کار کنن و حتی تجاریش کنن (لایسنس Apache 2.0 یعنی بدون گیر و گرفتاری مجاز به کار حرفهای و آزمایشگاهی). این یعنی توسعهدهندهها محدودیت ندارن و میتونن مدل رو روی هر چیزی از گوشی تا سرورهای قوی اجرا کنن.
حالا بیاید سر اصل مطلب: این مدلها روی کارتهای گرافیکی فول اپدیت و قدرتمند انویدیا H100 آموزش دیدن و بهینهسازی شدن واسه کار روی اکوسیستم CUDA (اینجا CUDA یعنی اون پلتفرم نرمافزاری انویدیا که به کارت گرافیک اجازه میده کارایی عجیب غریبی انجام بده). ولی اگر دنبال نهایت سرعت باشی، باید بری سراغ سیستمهای Blackwell-powered GB200 NVL72 که مدل gpt-oss تا ۱.۵ میلیون توکن تو ثانیه پردازش میکنه! (توکن هم یعنی بخش کوچیکی از متن، که مدلها به کمکش جمله و پاراگراف میفهمن و تولید میکنن).
انویدیا و OpenAI با هم گفتن که با gpt-oss، توسعه هوش مصنوعی هم آزادتر میشه و هم آمریکا پیشتاز این تکنولوژیه. مدل بزرگتر یعنی gpt-oss-120b تقریباً به پای o4-mini اوپنایآی میرسه (اینم مدل حرفهای خود اوپنایآیه) و حتی میتونه روی یه کارت گرافیک ۸۰ گیگ اجرا شه! مدل کوچیکتر gpt-oss-20b هم کارایی o3-mini رو داره و رو خیلی از ابزارهای ساده و لبه (edge devices یعنی دستگاههای کوچیک مثل لپتاپ یا حتی کامپیوتر خونهای ساده) با فقط ۱۶ گیگ رم اجرا میشه. دقت کنید: این مدلها سرعت عجیب دارن و برای کارای لحظهای خیلی مناسبن.
یه چیز باحال دیگه: این دو مدل با کلی فریمورک معروف سازگارن! مثل FlashInfer، Hugging Face (یه پلتفرم معروف برای هوش مصنوعی)، llama.cpp، Ollama، vLLM و حتی TensorRT-LLM انویدیا. یعنی آزادی کامل داری از هر ابزاری خواستی استفاده کنی و همزمان حداکثر بهرهوری رو بگیری.
از نظر معماری، این مدلها از روش Mixture-of-Experts یا MoE استفاده میکنن (MoE یعنی بجای اینکه همه پارامترها همیشه فعال باشن، فقط یه بخش کوچیک و هوشمند فعال میشه و این یعنی سرعت و مصرف پایینتر). مثلاً gpt-oss-120b با اینکه ۱۱۷ میلیارد پارامتر داره، موقع پردازش هر توکن فقط ۵.۱ میلیاردش واقعاً فعاله. مدل کوچیکترش هم به همین شکل.
یه آپدیت توپ: هر دو مدل کانتکست لِنگث ۱۲۸ هزار دارن! یعنی متنهای خیلی طولانی رو یهجا میگیرن، نه مثل مدلهای قدیمی که جا کم میاوردن. تازه از Rotary Positional Embeddings و فنون توجه (Attention Mechanisms) هم بهره گرفتن که باعث میشه هم حافظه و هم قدرتشون بالاتر باشه.
مدل gpt-oss-120b تو تستهای مختلف، حتی از بعضی مدلهای اختصاصی اوپنایآی (مثل o1 و o4-mini) بهتر عمل کرد مخصوصاً تو حوزه سلامت (HealthBench)، ریاضی (AIME)، و برنامهنویسی (Codeforces). مدل کوچیکتر هم با وجود سختافزار سادهتر، بازم عالیه.
روش آموزش هم ترکیبی بوده؛ از آموزش تحتنظر (Supervised Fine-Tuning) تا یادگیری تقویتی (Reinforcement Learning) و کلی تکنیک پیشرفته مثل مدلهای اختصاصی اوپنایآی. حتی تنظیماتی برای مدل هست که بتونی انتخاب کنی با چه سرعت و دقتی فکر کنه (از سطح پایین تا خیلی حرفهای).
وقتی بحث امنیت میشه، اوپنایآی حسابی این مدلها رو با «چارچوب آمادگی» (Preparedness Framework یعنی استانداردی برای اطمینان از ایمنی مدل) و تستهای ضد حمله چک کرده. تازه تیم بررسی مستقل هم اومدن و روی روشهاشون نظر دادن تا ایمنی در حد مدلهای بسته همون شرکت باشه.
یه نکته مهم برای برنامهنویسها و شرکتا: اوپنایآی و انویدیا با کلی پلتفرم گنده مثل Azure، AWS، Vercel، Databricks و غولهایی مثل AMD، Cerebras و Groq همکاری کردن تا بشه همه جا مدلها رو راحت اجرا کرد. حتی مایکروسافت هم امکان اجرا کردن مدل gpt-oss-20b رو با ONNX Runtime روی ویندوز اضافه کرده!
در آخر، هدف اوپنایآی از این کار، بالا بردن دسترسی به هوش مصنوعی پیشرفته و تشویق نوآوری و توسعه مسئولانه بوده. این یعنی شما هم میتونی به راحتی از جدیدترین هوش مصنوعی برای پروژه یا ایده خلاقانهت استفاده کنی؛ دیگه دستت کاملاً بازه! به زودی قراره موج بعدی انقلاب صنعتی رو این مدلها هدایت کنن؛ فقط کافیه تو هم دست به کار شی!
منبع: +