کبوترها، این استادای پنهان هوش مصنوعی!

اگه فکر می‌کردی هوش مصنوعی فقط نتیجه کار نابغه‌هایی مثل آلن تورینگ و ایزاک آسیموفه، باید یه تشکر حسابی هم از کبوترها و دکتر اسکینر بکنی! بذار قصه رو از اول و به سبک خودم برات تعریف کنم.

تو سال ۱۹۴۳، وقتی دنیا تو تب و تاب پروژه منهتن و ساخت بمب اتم بود، یه روانشناس آمریکایی به اسم بی.اف. اسکینر یه پروژه مخفی داشت که هدفش ساخت سلاح جدید نبود، بلکه می‌خواست بمب‌هارو دقیق‌تر کنه. داستانم اینجوری شروع شد که اسکینر سوار قطار بود و دسته‌ای از پرنده‌ها رو دید که چطور دقیق و جمعی پرواز می‌کردن. همونجا جرقه‌ای تو ذهنش زد: «اگه بشه از پرنده‌ها برای هدایت موشک استفاده کرد چی؟!»

اسکینر اول با کلاغ‌ها امتحان کرد، ولی خب این پرنده‌های باهوش همکاری نمی‌کردن. پس رفت سراغ کبوترها، همون‌هایی که معمولاً برای رستوران‌های چینی می‌گرفتن! پروژه‌ای که اسمش شد «پروژه کبوتر». تو آزمایشگاه، هر بار کبوتری عکس هوایی هدف رو نوک می‌زد، با غذا تشویقش می‌کردن. برنامه‌ش هم این بود که این پرنده رو تو دماغه موشک بذاره و وقتی تصویر هدف از لنز رو یه صفحه می‌افتاد، کبوتر با نوک زدن مسیر رو مشخص کنه.

حالا این ایده عملاً تو جنگ عملی نشد ولی چیزی که اسکینر فهمید این بود که کبوترها فقط باهوش نیستن، بلکه فوق‌العاده برای مطالعه یادگیری کاربردی‌ان. خودش می‌گفت: «کبوتر رو انتخاب کردیم نه به خاطر باهوش بودنش، بلکه چون عملاً میشه ازش یه ماشین ساخت».

اینجا یه نکته مهم هست: خیلیا فکر می‌کنن اصل و ریشه هوش مصنوعی به داستان‌های علمی‌تخیلی یا آزمایش تورینگ برمی‌گرده، ولی تحقیقای اسکینر رو کبوترها هم یه پیش‌زمینه اساسی برای تکنولوژی امروزیه. اسکینر باور داشت اصل یادگیری تو همه موجودات – حتی انسان – همون تداعی‌س؛ یعنی کار رو امتحان کردن، جایزه گرفتن یا مجازات شدن، و بعد تکرار رفتار درست. این چیزی بود که بعدها مهندسای کامپیوتر ازش تو ساخت هوش مصنوعی استفاده کردن.

حرف از یادگیری تقویتی شد، بذار برات توضیح بدم: Reinforcement Learning یعنی هوش مصنوعی با گرفتن پاداش (یا تنبیه) یاد می‌گیره چه کاری رو بیشتر انجام بده – درست مثل کبوتر اسکینر. دوتا از مهم‌ترین معمارای این روش، ریچارد ساتون و اندرو بارتو بودن، که سال ۲۰۲۴ جایزه تورینگ رو بردن (این جایزه به نوعی نوبل علوم کامپیوتره).

یادگیری تقویتی باعث شد کامپیوتر بتونه رانندگی کنه، مسائل پیچیده حل کنه و حتی تو بازی‌هایی مثل شطرنج و گو، قهرمان جهان رو شکست بده. اما نکته جالب اینه که مغز این هوش مصنوعیا بیشتر شبیه کبوتره تا انسان – یعنی یاد گرفتن با آزمون و خطا و تداعی ساده به جای استدلال پیچیده.

یکی از درسای تلخ (The Bitter Lesson) که تو ۷۰ سال تحقیق روی AI یاد گرفتن اینه که مدل کردن هوش انسانی اصلاً جواب نمی‌ده! الگوریتم‌ها با تداعی و یادگیری تجربی موفق‌تر بودن. پس اگه یه روز هوش مصنوعی از ما بهتر شد، رییساش بیشتر یادآور «موش‌های بالدار با مغزی در حد سیاره» میشن تا آدمیزاد!

یه نگاه دیگه جالب از این زاویه اینه که پیشرفت AI باعث شد بعضی محققا مثلاً یوهان لیند (زیست‌شناس سوئدی) بیان بگن شاید باید بیشتر به نقش یادگیری تداعی‌ای تو موجودات هوشمندی مثل شامپانزه‌ها و کلاغ‌ها دقت کنیم. حتی تو کبوترهای معمولی هم این یادگیری خیلی پیچیده‌تر از چیزی بوده که قبلاً فکر می‌کردیم.

بذار برات از داستان ساتون و علاقه‌اش بگم. اون اوایل که وارد هوش مصنوعی شد، روانشناسی خونده بود و کلی به آزمایشای حیوانات علاقه داشت. خودش می‌گفت هنوزم مدل یادگیری حیوانات تو ساخت هوش مصنوعی به کار میاد، مخصوصاً این ایده که رفتار از پیامدهاش شکل می‌گیره. (اسکینر بهش می‌گفت Operant Conditioning یعنی شرطی‌سازی فعالانه، یعنی حیوانات بر اساس نتیجه کاراشون یاد می‌گیرن.)

در اصل، تجربه نشون داد مدل قدیمی هوش مصنوعی که دنبال شبیه‌سازی منطق انسانی و قوانین پیچیده بود (بهش می‌گفتن Symbolic AI) خیلی جاها گیر می‌کرد – مثلاً تو تشخیص تصویر یا زبان – چون عملاً آدم نمی‌تونه همه قاعده‌ها را به کد تبدیل کنه. اما با یادگیری تداعی‌ای، حتی کبوترها یاد گرفتن عکس‌هایی که آدم توشه رو از عکسای بدون آدم تشخیص بدن!

ساتون و بارتو با الهام از همین ایده‌ها، روشی رو پیش بردن که عامل هوشمند باید بتونه محیط رو آزمایش کنه، جایزه و نتیجه رو یاد بگیره و بعد رفتار بهینه رو انتخاب کنه (یادگیری تقویتی همینه). سال ۱۹۹۸ کتاب معروف Reinforcement Learning: An Introduction رو نوشتن که هنوز هم مرجع حساب میشه.

همین رویکرد باعث شد پروژه‌هایی مثل AlphaGo Zero بتونه با فقط چند هفته تمرین و گرفتن پاداش برای بردن و منفی برای باختن، کل دانش و تاکتیک چند هزار ساله بشر تو بازی Go رو تو چند روز یاد بگیره و حتی راه‌حل‌های جدید خلق کنه که برای حرفه‌ای‌ها هم تازگی داشت!

حتی این روزا تو چت‌بات‌ها و سیستم‌هایی مثل GPT-3 و GPT-4، یادگیری تقویتی نقش کلیدی داره. البته اون نسل اول هوش مصنوعی که بهش می‌گن Supervised Learning – یعنی مدل رو با داده‌های برچسب‌خورده آموزش میدن – اما بعد با قرار دادن پاداش و بازخورد، هوش مصنوعی رو ریزتر تنظیم می‌کنن. به این کار می‌گن Reinforcement Learning from Feedback یا «یادگیری تقویتی با بازخورد».

البته بعضیا توی شرکتا میان درباره مدل‌های جدید انگار دارن درباره هوش انسانی یا تفکر حرف می‌زنن – می‌گن این مدلا reasoning دارن (یعنی استدلال می‌کنن). ولی متخصصا میگن این بیشتر تبلیغات بازاریه و واقعاً این مدل‌ها فقط دنبال پاداش گرفتن و یاد گرفتن تداعی‌ای هستن – نه تفکر منطقی انسانی.

حالا این دیدگاه حتی بیولوژیستا رو هم وادار کرده درباره تکامل هوش توی حیوانات، مخصوصاً تو کبوترها، یه تجدید نظر کنن. مثلاً «ادا واسرمن» تونست به کبوترا دسته‌بندی پیچیده‌ای رو یاد بده که حتی دانشجوهای دانشگاه شکست خوردن! دانشجوها دنبال یه قانون یا قاعده بودن، ولی کبوترا فقط از راه تمرین و تداعی حس گرفتن که هر دیسک جزو کدوم دسته است.

تو آزمایشای دیگه، کبوترا یاد گرفتن تو عکسای پزشکی با دقت دکترا، بافت سرطانی و علائم بیماری قلبی رو تشخیص بدن! نتیجه این شد که یادگیری تداعی‌ای شاید به اون سادگی‌ای که فکر می‌کردیم نباشه و به اندازه کافی برای پیچیده‌ترین رفتارها هم کارایی داره.

خیلیا قبلاً فکر می‌کردن برای یادگیری پیچیده و رفتارهایی مثل ابزارسازی یا برنامه‌ریزی تو حیوانات، حتماً به یه ذهن پیشرفته و تفکر نیاز داریم. ولی تحقیقات جدید نشون می‌ده با همون یادگیری تداعی‌ای ساده هم میشه این رفتارها رو توضیح داد – فقط زنجیره‌ای از تجربه و جایزه و تداعی.

البته اینم بگم، شاید با برگشتن به نظریات رفتارگرایی (Behaviorism) بعضیا بگن خطرناکه، مخصوصاً اون‌هایی که دغدغه اخلاق حیوانات دارن. اما روانشناسا و زیست‌شناسا الان دیگه نمی‌گن حیوانات ماشینای ساده‌ان؛ می‌گن یادگیری تداعی‌ای خودش یه مکانیزم شناختی خیلی قدرتمنده و منکر احساسات و غرایز ذاتی حیوانات هم نیستن. کبوتر یاد می‌گیره ساختار زندگیشو تو آزمایشگاه و بیرون آزمایشگاه بشناسه، حتی اگر دقیقاً ندونه دفعه بعد چه کاری باید انجام بده.

نکته مهم اینه که همون انجمن‌هایی که تو کبوترها باعث یادگیری میشه، برای ما آدما هم کار می‌کنه. خیلی وقت‌ها ما هم بدون اینکه بتونیم دلیل دقیقش رو توضیح بدیم فقط بر اساس تجربه و تمرین چیزی رو یاد می‌گیریم – درست مثل کبوترا. جالبه بعضی از سخت‌ترین مهارت‌های انسانی مثل تست کردن نوع انگور یا تشخیص حرف کسی، با همون مکانیزم یادگیری تداعی‌ای به دست میاد.

آخرش باید بگم: همه این مکانیسم‌های یادگیری که کبوترها ازش استفاده می‌کنن، هم تو مغز ما هست، هم تو کامپیوترهای هوشمند. شاید دفعه بعدی که به یه کبوتر کوچیک و دست‌کم‌گرفته تو خیابون نگاه می‌کنی، یاد علم بزرگی بیفتی که پشتش هست و اینکه کلی از پیشرفتای فناوری قرن ما، مدیون همین استادای پنهانِ پر و بال دارن!

منبع: +