وقتی هوش مصنوعی‌ها با هم تیم میشن: ماجرای شورای AI و آزمون پزشکی آمریکا!

خب بچه‌ها، امروز میخوام براتون درباره یه ایده خیلی جالب تو دنیای هوش مصنوعی (AI) بگم. داستان از اونجا شروع میشه که چندتا دانشمند زرنگ اومدن و یه روش جدید برای بهتر جواب دادن هوش مصنوعی‌ها به سوالای خیلی مهم و جدی، مخصوصاً سوالای پزشکی، امتحان کردن.

بیاید اول یه نکته رو روشن کنیم: مدل‌های زبانی بزرگ مثل GPT-4 (مثلاً همون هوش مصنوعی‌ای که جواب میده و حرف میزنه)، موقع جواب دادن به سوالا همیشه دقیق و یکنواخت رفتار نمیکنن. گاهی اوقات یه جواب خوب میدن، گاهی یه خورده پرت و پلا. دلیلش هم اینه که این مدل‌ها شانسی (یا به قول دانشمندها “stochastic”) بعدی رو پیش‌بینی میکنن، یعنی همیشه همون جواب قبلی رو نمیدن! واسه همین اعتماد کردن به یه مدل تنها، مخصوصاً تو آزمونای حساس مثل USMLE (آزمون معروف پزشکی آمریکا)، خیلی ریسکه.

حالا این دانشمندها اومدن یه مدل جالب طراحی کردن که اسمش رو گذاشتن “شورای AI” یا Council of AIs. این یعنی به جای یه هوش مصنوعی، چندتا هوش مصنوعی (یا بهتر بگم چند تا نسخه GPT-4) دور هم جمع میشن، درباره سوالا با هم بحث میکنن و آخرش با کمک یه هوش مصنوعی دیگه که اسمش رو گذاشتن “مدیر جلسه” یا Facilitator AI (یعنی همونی که جلسه رو هماهنگ میکنه و همه رو سر جواب جمع میکنه)، به یه جواب مشترک می‌رسن.

این تیم باحالشون رو آوردن سراغ ۳۲۵ تا سوال آزمون USMLE. این آزمون سه مرحله داره:

Step 1: سوالای علوم پایه پزشکی
Step 2 CK: سوالای دانش بالینی و درمانی
Step 3: سوالای آمادگی واسه طبابت مستقل و حرفه‌ای

نتایجش چی شد؟ جالب اینجاست که شورای AI تو هر سه مرحله از یه مدل تک‌نفره خیلی بهتر عمل کرد. تو Step 1 تونستن ۹۷ درصد جوابا رو درست بدن، تو Step 2 حدود ۹۳ درصد و تو Step 3 هم ۹۴ درصد جواب درست داشتن. یعنی تقریباً همه‌ش رو درست زدن! این درصدها واقعاً بالاست.

حالا گاهی پیش میاد که اوایلش همه Council با هم هم‌نظر نبودن و جوابشون یکی نبود. اما با بحث و گفتگو بین هوش مصنوعی‌ها (یعنی مدل‌ها با هم حرف زدن و استدلال کردن)، تو ۸۳ درصد موارد حاضر شدن به یه جواب درست برسن! حتی جالب‌تر این که بیش از نیمی از جواب‌هایی که اکثریت رأی اول اشتباه داده بودن، بعد از بحث بین اعضای AI درست شد (۵۳ درصد). یعنی شورا خودش تونسته خطاهای جمعی خودش رو هم اصلاح کنه!

یه نکته آماری جالب‌تر اینه که احتمال این که جواب اشتباه اکثریت بعد از بحث تبدیل به جواب درست بشه، پنج برابر بیشتر بوده تا این که یه جواب درست اشتباهی بشه.

یکی دیگه از چیزای باحال این مقاله این بود که یه چیزی به اسم “entropy معنایی” (یعنی پراکندگی و گیجی تو جوابا) رو تونستن تا صفر برسونن! یعنی دیگه جواب آخر همیشه مشخص و بدون تردید باشه. این خودش نشون میده وقتی هوش مصنوعی‌ها کنار هم کار کنن، میتونن همدیگه رو قوی‌تر و جواب‌ها رو دقیق‌تر کنن.

در واقع این مقاله اولین مدرک جدی رو نشون داد که اگه چندتا مدل هوش مصنوعی رو به صورت گروهی و با ذهن باز بذاریم کنار هم بحث کنن، نه تنها ضعیف نمیشن بلکه مثل یه تیم فوق‌العاده عمل میکنن. چیزی که اولش یه ضعف به نظر میرسه (یعنی variablility یا ناپایداری جواب‌ها)، آخرش تبدیل میشه به یه نقطه قوت که باعث میشه جوابا با فکر و دقت بیشتری شکل بگیرن.

خلاصه که این روشِ تیمی نه تنها واسه آزمون پزشکی کار داده، بلکه میتونه راه رو برای همکاری هوش‌های مصنوعی تو بقیه زمینه‌ها هم باز کنه؛ مخصوصاً جاهایی که دقت لازم و جواب درست خیلی مهمه. شمارو هم دعوت میکنم که مثل این هوش مصنوعی‌ها، تو کار گروهی حرفه‌ای بشین!

منبع: +