تا حالا شنیدی اسم Multi-Head Attention یعنی کلی کله(!) توی شبکههای ترنسفورمر (Transformers) چیه و چرا اینقدر مهمه؟ این همون تکنولوژی پشت مدلهای معروف زبانی مثل ChatGPT و امثالشون هست و خیلی ترکونده توی دنیای هوش مصنوعی. حالا بریم یه خورده ریزتر ببینیم این چند تا کله کلاً چی کار میکنن و چرا واقعاً از مدلهای تککله (!!) بهترن.
اول بگم Multi-Head Attention یعنی یه مدل توجه (attention) که به جای اینکه فقط یه کانال داشته باشه، چند تا کانال موازی داره که هر کدوم عاشق بررسی یه جور ارتباط بین کلمهها هستن.
✅ تعریف ساده: Attention اینجوریه که مدل تصمیم میگیره موقع پردازش یه کلمه به کدوم قسمت از جمله بیشتر توجه کنه. Multi-Head هم یعنی چند سری این فرآیند رو موازی انجام بدن، ولی خب، فقط این نیست؛ اصل ماجرا جالبه!
خیلیا فکر میکنن مزیت Multi-Head Attention صرفاً موازیسازی (parallelism) هست، یعنی فقط سرعت میده و بس. ولی مقالهای که همین تازگی روی arXiv اومده (arXiv:2507.02944v1) یه نگاه جدید داده و گفته ماجرا عمیقتر از این حرفاست!
تو این مقاله گفتن آقا، کلاً Multi-Head Attention رو میشه مثل یه دسته گراف کامپیوتری (computational graph) دید، که هر «هد» (یا همون کله!) نقش یه گراف جهتدار بدون حلقه (DAG – Directed Acyclic Graph) رو داره و همه هم به یه نقطه نهایی ختم میشن. 👉 اینجوری یعنی هر Head میتونه دیتا رو به یه سبک متفاوت، ولی هماهنگ، پردازش کنه.
کانسپتهای technical:
– “Synergistic computational graph” یعنی این گرافها با هم دیگه قشنگ همکاری دارن تا یه خروجی خفنتر خلق کنن؛ یه جور همافزایی.
– “Mixing time” یعنی زمانی که طول میکشه تا اطلاعات قاطی و خوب توی سیستم پخش بشه؛ هر چی این عدد کمتر باشه، یادگیری بهتر و سریعتر میشه.
– “Minimax fidelity” یه جور معیار دقت هست که به ما میگه بدترین حالت ممکن چقدر خوب داده رو منتقل کردیم.
حالا میخوام خبر خوب رو بگم: نویسندهها نشون دادن وقتی سَرها (همون Headها) به اندازه کافی با هم متفاوت و متنوع باشن (این بهش میگن “head-diversity” یعنی هر Head یه جور متفاوت به دیتا نگاه کنه)، Multi-Head Attention میتونه اطلاعات رو سریعتر و با دقت بالاتر منتقل کنه نسبت به مدل تک هد با همون تعداد پارامتر. یعنی فقط بحث پردازش موازی نیست، بلکه همکاری Headها این وسط یه اثر جادویی میذاره که باعث میشه مدل قویتر شه.
اونا حتی اومدن چند تا مدل واقعی رو آزمایش کردن: مدلهایی با یک Head و مدلهایی با چند Head (ولی با همون مقدار کلی پارامتر)، بعد گذاشتنشون سر چند تا task مربوط به ویرایش و دستکاری رشته (sequence manipulation). نتیجه مطابق پیشبینیهاشون دراومد: اون مدلهایی که Multi-Head Attention داشتن هم سریعتر نتیجه گرفتن، هم دقتشون بالاتر رفت!
جمعبندی رفیقانه: داستان Multi-Head Attention فقط این نیست که بتونیم موازی کار کنیم؛ ماجرا اینه که این سَرهای مختلف، هر کدوم با زاویه خودشون به داده نگاه میکنن و وقتی کنار هم کار میکنن، اثرشون از تک Headها خیلی قویتره. اون همافزایی (synergy) و همکاریشون باعث میشه مدل سریعتر و با دقتتر یاد بگیره و اطلاعات رد و بدل کنه.
پس دفعه دیگه اسم Multi-Head Attention رو شنیدی، بدون فقط سرعت و پردازش موازی نیست، بلکه یه همکاری خفن بین Headهای مختلفه که قدرت رو میسازه! 😎🧠
منبع: +