پروتکل‌هایی که میخوان زندگی شلوغ ما رو برای هوش مصنوعی راحت‌تر کنن!

این روزا شرکت‌های مختلف دارن کلی ربات و اینجور چیزهای هوشمند درست می‌کنن که بهشون میگن “AI agent”؛ یعنی آدم دیگه لازم نیست خودش کاراشو انجام بده، می‌تونه به این هوش‌های مصنوعی بگه برام ایمیل بفرست، سند درست کن یا دیتابیس ویرایش کن! حالا مشکل اینه که این ایجنت‌ها هنوز زیاد حالیشون نمیشه با همه بخش‌های زندگی دیجیتالی ما چطوری ارتباط بگیرن. یعنی مثلا نمی‌تونن راحت همه برنامه‌ها رو کنترل کنن، یا درست نفهمن چی کار باید بکنن.

مشکل از اینجاس که زیرساخت‌های لازم براشون هنوز کامل ساخته نشده. اگه واقعا می‌خوایم این ایجنت‌ها کارای روزمره رو برامون انجام بدن، هم باید ابزار درست در اختیارشون بذاریم، هم مطمئن بشیم که این قدرت رو درست و بی‌خطر استفاده می‌کنن.

اینجاست که شرکت‌هایی مثل Anthropic و گوگل وارد عمل شدن و شروع کردن روی پروتکل‌هایی کار کردن که تعیین کنن ایجنت‌ها چجوری با هم و با دنیای بیرون ارتباط بگیرن. مثلاً یه چیزی ساختن به اسم “MCP” که یعنی Model Context Protocol؛ خلاصه ش اینه: هوش‌های مصنوعی وقتی میخوان با برنامه‌های دیگه حرف بزنن یا دستور بدن، باید بین “زبان آدمیزاد” و “کد برنامه‌نویسی” یه واسطه باشه. MCP همین کار رو انجام میده و الان هر کسی می‌تونه ازش استفاده کنه. جالبه بدونی الان بیش از ۱۵ هزار سرور مختلف براش ساخته شده!

یه مسئله بزرگ دیگه اینه که ایجنت‌ها موقع حرف زدن با همدیگه چجوری تعامل داشته باشن. این کار حتی پیچیده‌تر و حساس‌تره. گوگل اومده یه پروتکل به اسم A2A ساخته؛ یعنی Agent2Agent. کارش اینه که وقتی چند تا ایجنت بخوان با هم گفتگو یا همکاری کنن، مسیرش رو مشخص می‌کنه. Surapaneni، یکی از مسئول‌های گوگل که روی این پروژه کار می‌کنه، گفته این کار قدم ضروری واسه اینه که از ایجنت‌های تک‌کاره بریم به سمت ایجنت‌هایی که واقعا می‌تونن هرکاری کنن.

الان بیش از ۱۵۰ تا شرکت (مثل Adobe و Salesforce) دارن با گوگل همکاری می‌کنن روی این پروتکل. MCP و A2A هر دو به هوش مصنوعی میگن چی کار حتماً باید بکنه، چی کار خوبه انجام بده، و چی کار رو نباید بکنه تا تعامل با سرویس‌های دیگه بی‌خطر باشه. تو هر نوع استفاده، میشه ایجنت‌ها با MCP مثلاً اطلاعات بگیرن و با A2A با همدیگه تبادل کنن.

اما هنوز این‌ها خیلی اول راهن! حتی خود Anthropic هم گفته: فعلاً داریم یاد می‌گیریم. یا نقشه راه A2A نشون میده کلی کار دیگه مونده.

سه تا چالش اصلی داریم: امنیت، بازبودن، و کارایی.

🔒 امنیت: هنوز کسی درست نمی‌دونه هوش مصنوعی چطوری کار می‌کنه؛ هر روز یه آسیب‌پذیری کشف میشه! مثلا اگه یه نفر بتونه ایجنتی رو که دسترسی داره به ایمیل آدم، هک کنه، شاید بتونه دستور بده اسناد خصوصی رو برای هکر بفرسته! به این حمله‌ها میگن indirect prompt injection؛ یعنی با یه پیام خاص، مدل رو به بیراهه می‌کشن.

بعضی محقق‌ها معتقدن MCP و شبیه اون باید جلوی این کارارو بگیره. ولی فعلاً نداره. یکی از محققین دانشگاه شیکاگو، زهاورون چن (Zhaorun Chen)، گفته فعلاً هیچ طراحی امنیتی توی MCP نیست! بروس اشنایر (Bruce Schneier)، یکی از فعال‌های امنیت سایبری، هم کلی شک داره که این پروتکل‌ها تونن امنیت بیارن، میگه خطرناکن. اما بعضی‌ها امیدوارن با استانداردسازی، حلش می‌کنن. مثلاً چن خودش MCP رو برای کشف راه‌هایی که نرم‌افزارا از طریقش ممکنه هک بشن تست می‌کنه. Anthropic هم میگه، پروتکل‌ها می‌تونن کار شرکت‌های امنیتی رو راحت‌تر کنن، چون میشه فهمید کی چی فرستاده.

🌐 باز بودن: MCP و A2A هر دو متن‌باز (open source) هستن. یعنی هر کی دوست داره می‌تونه کدش رو ببینه، تغییر بده یا برای خودش یه نسخه برداره (به این کار میگن fork). این باعث میشه توسعه شون سریع‌تر و با شفافیت بیشتر جلو بره. مثلاً گوگل A2A رو به بنیاد لینوکس داده؛ بنیاد لینوکس یه سازمان غیرانتفاعیه که پروژه‌های متن‌باز رو سروسامان میده.

مشکل اینجاس که هنوز Anthropic صد در صد مالک MCP حساب میشه و فقط یه کمیته رهنمایی از بیرون داره بهش مشاوره میده. بعضیا دوست دارن مدیریتش مثل خود A2A بازتر باشه و چندتا گروه تو سرنوشتش نقش داشته باشن تا فقط یه شرکت نباشه که همه‌چیز دستشه.

البته Anthropic گفته که خیلی راحت میشه فُرک کرد، حتی IBM یه پروتکل از MCP منشعب کرده به اسم Agent Communication Protocol.

🤔 سرعت و کارایی: MCP و A2A همه‌ش با “زبان طبیعی” کار می‌کنن؛ یعنی همون حرف زدن آدمیزادی به انگلیسی یا فارسی یا هرچی، نه کد خشک و ترمینالی! این کار یه خوبی داره: ایجنت‌ها لازم نیست واسه حرف زدن با هم کلی مدل خاص آموزش ببینن. ولی بدیش اینه که دقیق نیست، ممکنه خطا بیاره و کلی هم مصرف منابع و پردازنده‌ش زیاده.

هوش‌های مصنوعی هر چیزی که می‌خونن یا می‌فرستن، باید به تیکه‌هایی به اسم “توکن” (token) تقسیم کنن؛ توکن یه جور واحد شمارش برای متنه. مثلاً تو پلاتفرم‌های AI معمولاً پول بر اساس تعداد توکن محاسبه میشه! وقتی ایجنت‌ها با MCP حرف میزنن، همیشه باید متن رو بخونن، تجزیه کنن و دوباره بنویسن و بفهمن. حتی اگر آدم نبینه، تو پشت صحنه همش داره این کار میشه! چن میگه این خیلی هزینه‌بر میشه: مثلاً اگه یه ایجنت قراره یه سند رو خلاصه کنه و برای یه برنامه دیگه بفرسته، کل فایل و خلاصه‌ش دوبار خونده و نوشته میشه! خلاصه کلی مصرف توکن داریم.

در مجموع، مزایای MCP و A2A که دنیای هوش مصنوعی ایجنت‌ها رو به جلو می‌بره، خودشون دردسرهای جدید هم میارن: هنوز راه زیادی مونده که این پروتکل‌ها واقعا کاربردی، امن و سریع بشن و بشه بهشون تکیه کرد. ولی شروعشونه! حالا حالاها باید منتظر پیشرفت بیشتر باشیم.

منبع: +