ماجرای جذاب چند تا کله توی مغز ترنسفورمرها! چرا Multi-Head Attention از یکی بهتره؟

Fall Back

تا حالا شنیدی اسم Multi-Head Attention یعنی کلی کله(!) توی شبکه‌های ترنسفورمر (Transformers) چیه و چرا اینقدر مهمه؟ این همون تکنولوژی پشت مدل‌های معروف زبانی مثل ChatGPT و امثالشون هست و خیلی ترکونده توی دنیای هوش مصنوعی. حالا بریم یه خورده ریزتر ببینیم این چند تا کله کلاً چی کار میکنن و چرا واقعاً از مدل‌های تک‌کله (!!) بهترن.

اول بگم Multi-Head Attention یعنی یه مدل توجه (attention) که به جای اینکه فقط یه کانال داشته باشه، چند تا کانال موازی داره که هر کدوم عاشق بررسی یه جور ارتباط بین کلمه‌ها هستن.

✅ تعریف ساده: Attention اینجوریه که مدل تصمیم می‌گیره موقع پردازش یه کلمه به کدوم قسمت از جمله بیشتر توجه کنه. Multi-Head هم یعنی چند سری این فرآیند رو موازی انجام بدن، ولی خب، فقط این نیست؛ اصل ماجرا جالبه!

خیلیا فکر میکنن مزیت Multi-Head Attention صرفاً موازی‌سازی (parallelism) هست، یعنی فقط سرعت میده و بس. ولی مقاله‌ای که همین تازگی روی arXiv اومده (arXiv:2507.02944v1) یه نگاه جدید داده و گفته ماجرا عمیق‌تر از این حرفاست!

تو این مقاله گفتن آقا، کلاً Multi-Head Attention رو میشه مثل یه دسته گراف کامپیوتری (computational graph) دید، که هر «هد» (یا همون کله!) نقش یه گراف جهت‌دار بدون حلقه (DAG – Directed Acyclic Graph) رو داره و همه هم به یه نقطه نهایی ختم میشن. 👉 اینجوری یعنی هر Head می‌تونه دیتا رو به یه سبک متفاوت، ولی هماهنگ، پردازش کنه.

کانسپت‌های technical:
– “Synergistic computational graph” یعنی این گراف‌ها با هم دیگه قشنگ همکاری دارن تا یه خروجی خفن‌تر خلق کنن؛ یه جور هم‌افزایی.
– “Mixing time” یعنی زمانی که طول می‌کشه تا اطلاعات قاطی و خوب توی سیستم پخش بشه؛ هر چی این عدد کمتر باشه، یادگیری بهتر و سریع‌تر میشه.
– “Minimax fidelity” یه جور معیار دقت هست که به ما میگه بدترین حالت ممکن چقدر خوب داده رو منتقل کردیم.

حالا میخوام خبر خوب رو بگم: نویسنده‌ها نشون دادن وقتی سَرها (همون Headها) به اندازه کافی با هم متفاوت و متنوع باشن (این بهش میگن “head-diversity” یعنی هر Head یه جور متفاوت به دیتا نگاه کنه)، Multi-Head Attention می‌تونه اطلاعات رو سریع‌تر و با دقت بالاتر منتقل کنه نسبت به مدل تک هد با همون تعداد پارامتر. یعنی فقط بحث پردازش موازی نیست، بلکه همکاری Headها این وسط یه اثر جادویی می‌ذاره که باعث میشه مدل قوی‌تر شه.

اونا حتی اومدن چند تا مدل واقعی رو آزمایش کردن: مدل‌هایی با یک Head و مدل‌هایی با چند Head (ولی با همون مقدار کلی پارامتر)، بعد گذاشتنشون سر چند تا task مربوط به ویرایش و دستکاری رشته (sequence manipulation). نتیجه مطابق پیش‌بینی‌هاشون دراومد: اون مدل‌هایی که Multi-Head Attention داشتن هم سریع‌تر نتیجه گرفتن، هم دقتشون بالاتر رفت!

جمع‌بندی رفیقانه: داستان Multi-Head Attention فقط این نیست که بتونیم موازی کار کنیم؛ ماجرا اینه که این سَرهای مختلف، هر کدوم با زاویه خودشون به داده نگاه می‌کنن و وقتی کنار هم کار می‌کنن، اثرشون از تک Headها خیلی قوی‌تره. اون هم‌افزایی (synergy) و همکاریشون باعث میشه مدل سریع‌تر و با دقت‌تر یاد بگیره و اطلاعات رد و بدل کنه.

پس دفعه دیگه اسم Multi-Head Attention رو شنیدی، بدون فقط سرعت و پردازش موازی نیست، بلکه یه همکاری خفن بین Headهای مختلفه که قدرت رو می‌سازه! 😎🧠
منبع: +