شکستن ARC-AGI: آیا پیشرفت در هوش مصنوعی عمومی واقعی است؟

آزمون ARC-AGI، که برای سنجش هوش مصنوعی عمومی طراحی شده، نمرات بهبود یافته‌ای را نشان می‌دهد. با این حال، طراحان آزمون معتقدند که این بهبود بیشتر نشان‌دهنده‌ی کاستی‌های خود آزمون ARC-AGI است تا پیشرفت واقعی در حوزه‌ی هوش مصنوعی عمومی. این موضوع، پرسش‌هایی را درباره‌ی چگونگی ارزیابی پیشرفت به سوی هوش عمومی واقعی مطرح می‌کند و اهمیت توسعه‌ی معیارهای دقیق‌تر برای سنجش ARC-AGI و هوش مصنوعی عمومی را برجسته می‌سازد.

جستجوی هوش عمومی مصنوعی (Artificial General Intelligence: AGI) مدت‌هاست که توجه محققان و عموم را به خود جلب کرده است. یکی از چالش‌های اساسی، تعریف و سنجش پیشرفت در راستای دستیابی به این هدف بلندپروازانه است. معیار ARC-AGI، مخفف “Abstract and Reasoning Corpus for Artificial General Intelligence”، در سال ۲۰۱۹ توسط فرانسوا چالت، از چهره‌های برجسته‌ی هوش مصنوعی، به عنوان یک راهکار بالقوه ارائه شد. هدف این معیار، ارزیابی توانایی یک سیستم هوش مصنوعی در یادگیری مهارت‌های جدید فراتر از داده‌های آموزشی‌اش بود، مهارتی که نشانه‌ای از هوش واقعی است. با این حال، تحولات اخیر، بحث‌هایی را درباره‌ی کارایی آزمون و اینکه آیا عملکرد بهتر، واقعاً نشان‌دهنده‌ی پیشرفت به سوی هوش عمومی مصنوعی است، برانگیخته است.

معیار ARC-AGI شامل چالش‌هایی شبیه به پازل است که با شبکه‌هایی از مربع‌های رنگی نمایش داده می‌شوند. سیستم‌های هوش مصنوعی باید این شبکه‌ها را تحلیل کرده و بر اساس مجموعه‌ای از قوانین استنتاجی، شبکه‌ی “پاسخ” صحیح را تولید کنند. این وظایف به عمد طوری طراحی شده‌اند که هوش مصنوعی را وادار به انطباق و استدلال در موقعیت‌های جدید کنند، مشابه روشی که انسان‌ها یاد می‌گیرند و دانش خود را در مسائل ناآشنا به کار می‌برند. در ابتدا، عملکرد هوش مصنوعی در ARC-AGI چندان چشمگیر نبود. تا همین اواخر، بهترین سیستم‌ها تنها می‌توانستند کمی کمتر از یک سوم وظایف را حل کنند، که منجر به انتقاد چالت از تمرکز صنعت بر مدل‌های زبانی بزرگ (Large Language Models: LLMs) شد. او استدلال کرد که LLMs، با وجود توانایی‌های قابل توجهشان در زمینه‌هایی مانند تولید متن و ترجمه، به شدت به حفظ کردن اطلاعات وابسته‌اند و در تعمیم دادن واقعی با مشکل مواجه هستند. او اشاره کرد که LLMs در شناسایی الگوها در داده‌های آموزشی گسترده‌ی خود بسیار خوب عمل می‌کنند، اما وقتی با سناریوهایی خارج از این الگوها روبرو می‌شوند، عملکرد ضعیفی از خود نشان می‌دهند. چالت معتقد بود که این نشان‌دهنده‌ی فقدان توانایی استدلال واقعی است.

برای تشویق تحقیقات فراتر از LLMs و ترغیب رویکردهای نوآورانه به هوش عمومی مصنوعی، چالت و مایک نوپ، یکی از بنیانگذاران Zapier، در ژوئن ۲۰۲۴ یک مسابقه‌ی ۱ میلیون دلاری راه‌اندازی کردند. هدف، توسعه‌ی یک هوش مصنوعی متن باز بود که بتواند از نمرات ARC-AGI موجود پیشی بگیرد. این مسابقه با استقبال خوبی روبرو شد و بهترین عملکرد، امتیاز ۵۵.۵٪ را کسب کرد که پیشرفت قابل ملاحظه‌ای نسبت به بهترین عملکرد سال قبل بود. در حالی که این ممکن است نشان‌دهنده‌ی یک جهش بزرگ باشد، هم چالت و هم نوپ نسبت به چنین برداشتی هشدار می‌دهند. آنها معتقدند که بسیاری از آثار ارسالی موفق، از نقاط ضعف خود آزمون سوءاستفاده کرده‌اند و در واقع به جای نمایش استدلال واقعی، راه‌حل‌ها را به صورت “brute-force” به دست آورده‌اند. نوپ در یک پست وبلاگ فاش کرد که بخش قابل توجهی از وظایف ARC-AGI به طور مؤثر هوش عمومی را نمی‌سنجند و به نمرات کاذب کمک می‌کنند. این درک منجر به این اعتراف شد که معیار ARC-AGI، اگرچه در نیت خود پیشگامانه است، نیاز به بازنگری دارد.

محدودیت‌های معیار ARC-AGI فراتر از مسئله‌ی راه‌حل‌های brute-force است. تعریف خود هوش عمومی مصنوعی همچنان موضوع بحث‌های پیگیری است و ارزیابی پیشرفت را دشوارتر می‌کند. برخی از محققان، از جمله یکی از کارکنان OpenAI، اظهار داشته‌اند که هوش عمومی مصنوعی ممکن است در حال حاضر، بسته به تعریفی که انتخاب می‌شود، در دسترس باشد. این دیدگاه با تأکید چالت بر استدلال واقعی و انطباق‌پذیری به عنوان مؤلفه‌های اصلی هوش عمومی مصنوعی در تضاد است. طراحان ARC-AGI به دلیل احتمالاً بزرگنمایی بیش از حد معیار به عنوان معیار قطعی پیشرفت به سوی هوش عمومی مصنوعی، به ویژه با توجه به ابهام پیرامون خود این اصطلاح، مورد انتقاد قرار گرفته‌اند. با این حال، آنها نیاز به بهبود را پذیرفته و به طور فعال بر روی نسل دوم معیار ARC-AGI، همراه با یک مسابقه‌ی مرتبط که برای سال ۲۰۲۵ برنامه‌ریزی شده است، کار می‌کنند. این معیار اصلاح شده با هدف رفع کاستی‌های شناسایی شده و ارائه ارزیابی دقیق‌تری از پیشرفت به سوی هوش عمومی واقعی طراحی شده است.

چالش‌های پیش آمده با معیار ARC-AGI، پیچیدگی‌های ذاتی ارزیابی پیشرفت هوش مصنوعی به سوی هوش عمومی را آشکار می‌کند. تعریف و سنجش هوش، چه در انسان و چه در ماشین، کاری بسیار پیچیده است. بحث‌های جاری پیرامون هوش عمومی مصنوعی و محدودیت‌های معیارهای فعلی، نیاز به اصلاح و کاوش مستمر در پیگیری این هدف بلندپروازانه را برجسته می‌کند. توسعه‌ی ARC-AGI، با وجود کاستی‌های اولیه‌اش، گامی ارزشمند در این مسیر طولانی است. این معیار، گفتگوهای مهمی را برانگیخته، تحقیقات نوآورانه را تشویق کرده و راه را برای معیارهای جامع‌تر در آینده هموار کرده است. تلاش برای هوش عمومی مصنوعی ادامه دارد و درس‌های آموخته شده از ARC-AGI بی‌شک مسیر پیش رو را شکل خواهد داد.

اگر به خواندن کامل این مطلب علاقه‌مندید، روی لینک مقابل کلیک کنید: techcrunch