اگه فکر میکردی هوش مصنوعی فقط نتیجه کار نابغههایی مثل آلن تورینگ و ایزاک آسیموفه، باید یه تشکر حسابی هم از کبوترها و دکتر اسکینر بکنی! بذار قصه رو از اول و به سبک خودم برات تعریف کنم.
تو سال ۱۹۴۳، وقتی دنیا تو تب و تاب پروژه منهتن و ساخت بمب اتم بود، یه روانشناس آمریکایی به اسم بی.اف. اسکینر یه پروژه مخفی داشت که هدفش ساخت سلاح جدید نبود، بلکه میخواست بمبهارو دقیقتر کنه. داستانم اینجوری شروع شد که اسکینر سوار قطار بود و دستهای از پرندهها رو دید که چطور دقیق و جمعی پرواز میکردن. همونجا جرقهای تو ذهنش زد: «اگه بشه از پرندهها برای هدایت موشک استفاده کرد چی؟!»
اسکینر اول با کلاغها امتحان کرد، ولی خب این پرندههای باهوش همکاری نمیکردن. پس رفت سراغ کبوترها، همونهایی که معمولاً برای رستورانهای چینی میگرفتن! پروژهای که اسمش شد «پروژه کبوتر». تو آزمایشگاه، هر بار کبوتری عکس هوایی هدف رو نوک میزد، با غذا تشویقش میکردن. برنامهش هم این بود که این پرنده رو تو دماغه موشک بذاره و وقتی تصویر هدف از لنز رو یه صفحه میافتاد، کبوتر با نوک زدن مسیر رو مشخص کنه.
حالا این ایده عملاً تو جنگ عملی نشد ولی چیزی که اسکینر فهمید این بود که کبوترها فقط باهوش نیستن، بلکه فوقالعاده برای مطالعه یادگیری کاربردیان. خودش میگفت: «کبوتر رو انتخاب کردیم نه به خاطر باهوش بودنش، بلکه چون عملاً میشه ازش یه ماشین ساخت».
اینجا یه نکته مهم هست: خیلیا فکر میکنن اصل و ریشه هوش مصنوعی به داستانهای علمیتخیلی یا آزمایش تورینگ برمیگرده، ولی تحقیقای اسکینر رو کبوترها هم یه پیشزمینه اساسی برای تکنولوژی امروزیه. اسکینر باور داشت اصل یادگیری تو همه موجودات – حتی انسان – همون تداعیس؛ یعنی کار رو امتحان کردن، جایزه گرفتن یا مجازات شدن، و بعد تکرار رفتار درست. این چیزی بود که بعدها مهندسای کامپیوتر ازش تو ساخت هوش مصنوعی استفاده کردن.
حرف از یادگیری تقویتی شد، بذار برات توضیح بدم: Reinforcement Learning یعنی هوش مصنوعی با گرفتن پاداش (یا تنبیه) یاد میگیره چه کاری رو بیشتر انجام بده – درست مثل کبوتر اسکینر. دوتا از مهمترین معمارای این روش، ریچارد ساتون و اندرو بارتو بودن، که سال ۲۰۲۴ جایزه تورینگ رو بردن (این جایزه به نوعی نوبل علوم کامپیوتره).
یادگیری تقویتی باعث شد کامپیوتر بتونه رانندگی کنه، مسائل پیچیده حل کنه و حتی تو بازیهایی مثل شطرنج و گو، قهرمان جهان رو شکست بده. اما نکته جالب اینه که مغز این هوش مصنوعیا بیشتر شبیه کبوتره تا انسان – یعنی یاد گرفتن با آزمون و خطا و تداعی ساده به جای استدلال پیچیده.
یکی از درسای تلخ (The Bitter Lesson) که تو ۷۰ سال تحقیق روی AI یاد گرفتن اینه که مدل کردن هوش انسانی اصلاً جواب نمیده! الگوریتمها با تداعی و یادگیری تجربی موفقتر بودن. پس اگه یه روز هوش مصنوعی از ما بهتر شد، رییساش بیشتر یادآور «موشهای بالدار با مغزی در حد سیاره» میشن تا آدمیزاد!
یه نگاه دیگه جالب از این زاویه اینه که پیشرفت AI باعث شد بعضی محققا مثلاً یوهان لیند (زیستشناس سوئدی) بیان بگن شاید باید بیشتر به نقش یادگیری تداعیای تو موجودات هوشمندی مثل شامپانزهها و کلاغها دقت کنیم. حتی تو کبوترهای معمولی هم این یادگیری خیلی پیچیدهتر از چیزی بوده که قبلاً فکر میکردیم.
بذار برات از داستان ساتون و علاقهاش بگم. اون اوایل که وارد هوش مصنوعی شد، روانشناسی خونده بود و کلی به آزمایشای حیوانات علاقه داشت. خودش میگفت هنوزم مدل یادگیری حیوانات تو ساخت هوش مصنوعی به کار میاد، مخصوصاً این ایده که رفتار از پیامدهاش شکل میگیره. (اسکینر بهش میگفت Operant Conditioning یعنی شرطیسازی فعالانه، یعنی حیوانات بر اساس نتیجه کاراشون یاد میگیرن.)
در اصل، تجربه نشون داد مدل قدیمی هوش مصنوعی که دنبال شبیهسازی منطق انسانی و قوانین پیچیده بود (بهش میگفتن Symbolic AI) خیلی جاها گیر میکرد – مثلاً تو تشخیص تصویر یا زبان – چون عملاً آدم نمیتونه همه قاعدهها را به کد تبدیل کنه. اما با یادگیری تداعیای، حتی کبوترها یاد گرفتن عکسهایی که آدم توشه رو از عکسای بدون آدم تشخیص بدن!
ساتون و بارتو با الهام از همین ایدهها، روشی رو پیش بردن که عامل هوشمند باید بتونه محیط رو آزمایش کنه، جایزه و نتیجه رو یاد بگیره و بعد رفتار بهینه رو انتخاب کنه (یادگیری تقویتی همینه). سال ۱۹۹۸ کتاب معروف Reinforcement Learning: An Introduction رو نوشتن که هنوز هم مرجع حساب میشه.
همین رویکرد باعث شد پروژههایی مثل AlphaGo Zero بتونه با فقط چند هفته تمرین و گرفتن پاداش برای بردن و منفی برای باختن، کل دانش و تاکتیک چند هزار ساله بشر تو بازی Go رو تو چند روز یاد بگیره و حتی راهحلهای جدید خلق کنه که برای حرفهایها هم تازگی داشت!
حتی این روزا تو چتباتها و سیستمهایی مثل GPT-3 و GPT-4، یادگیری تقویتی نقش کلیدی داره. البته اون نسل اول هوش مصنوعی که بهش میگن Supervised Learning – یعنی مدل رو با دادههای برچسبخورده آموزش میدن – اما بعد با قرار دادن پاداش و بازخورد، هوش مصنوعی رو ریزتر تنظیم میکنن. به این کار میگن Reinforcement Learning from Feedback یا «یادگیری تقویتی با بازخورد».
البته بعضیا توی شرکتا میان درباره مدلهای جدید انگار دارن درباره هوش انسانی یا تفکر حرف میزنن – میگن این مدلا reasoning دارن (یعنی استدلال میکنن). ولی متخصصا میگن این بیشتر تبلیغات بازاریه و واقعاً این مدلها فقط دنبال پاداش گرفتن و یاد گرفتن تداعیای هستن – نه تفکر منطقی انسانی.
حالا این دیدگاه حتی بیولوژیستا رو هم وادار کرده درباره تکامل هوش توی حیوانات، مخصوصاً تو کبوترها، یه تجدید نظر کنن. مثلاً «ادا واسرمن» تونست به کبوترا دستهبندی پیچیدهای رو یاد بده که حتی دانشجوهای دانشگاه شکست خوردن! دانشجوها دنبال یه قانون یا قاعده بودن، ولی کبوترا فقط از راه تمرین و تداعی حس گرفتن که هر دیسک جزو کدوم دسته است.
تو آزمایشای دیگه، کبوترا یاد گرفتن تو عکسای پزشکی با دقت دکترا، بافت سرطانی و علائم بیماری قلبی رو تشخیص بدن! نتیجه این شد که یادگیری تداعیای شاید به اون سادگیای که فکر میکردیم نباشه و به اندازه کافی برای پیچیدهترین رفتارها هم کارایی داره.
خیلیا قبلاً فکر میکردن برای یادگیری پیچیده و رفتارهایی مثل ابزارسازی یا برنامهریزی تو حیوانات، حتماً به یه ذهن پیشرفته و تفکر نیاز داریم. ولی تحقیقات جدید نشون میده با همون یادگیری تداعیای ساده هم میشه این رفتارها رو توضیح داد – فقط زنجیرهای از تجربه و جایزه و تداعی.
البته اینم بگم، شاید با برگشتن به نظریات رفتارگرایی (Behaviorism) بعضیا بگن خطرناکه، مخصوصاً اونهایی که دغدغه اخلاق حیوانات دارن. اما روانشناسا و زیستشناسا الان دیگه نمیگن حیوانات ماشینای سادهان؛ میگن یادگیری تداعیای خودش یه مکانیزم شناختی خیلی قدرتمنده و منکر احساسات و غرایز ذاتی حیوانات هم نیستن. کبوتر یاد میگیره ساختار زندگیشو تو آزمایشگاه و بیرون آزمایشگاه بشناسه، حتی اگر دقیقاً ندونه دفعه بعد چه کاری باید انجام بده.
نکته مهم اینه که همون انجمنهایی که تو کبوترها باعث یادگیری میشه، برای ما آدما هم کار میکنه. خیلی وقتها ما هم بدون اینکه بتونیم دلیل دقیقش رو توضیح بدیم فقط بر اساس تجربه و تمرین چیزی رو یاد میگیریم – درست مثل کبوترا. جالبه بعضی از سختترین مهارتهای انسانی مثل تست کردن نوع انگور یا تشخیص حرف کسی، با همون مکانیزم یادگیری تداعیای به دست میاد.
آخرش باید بگم: همه این مکانیسمهای یادگیری که کبوترها ازش استفاده میکنن، هم تو مغز ما هست، هم تو کامپیوترهای هوشمند. شاید دفعه بعدی که به یه کبوتر کوچیک و دستکمگرفته تو خیابون نگاه میکنی، یاد علم بزرگی بیفتی که پشتش هست و اینکه کلی از پیشرفتای فناوری قرن ما، مدیون همین استادای پنهانِ پر و بال دارن!
منبع: +