داستان هوش مصنوعی و عکس‌های ماموگرافی: چرا همه دستگاه‌ها براش یکی نیستن!

خب بیاین امروز با هم یه موضوع جالب رو بررسی کنیم که کلی توی دنیای پزشکی سر و صدا کرده: تاثیر شرکت‌ سازنده دستگاه ماموگرافی روی عملکرد هوش مصنوعی. (ماموگرافی یعنی همون عکس‌برداری مخصوص برای شناسایی مشکلات پستان، مثلاً تشخیص زودهنگام سرطان سینه.)

یه تیم از دانشمندها اومدن بررسی کنن که اگه هوش مصنوعی رو با عکس‌هایی آموزش بدیم که فقط از یه نوع دستگاه خاص هستن (مثلاً دستگاه برند «هولوژیک» یا «جنرال الکتریک»)، ببینیم چقدر تو دسته‌بندی تراکم سینه زن‌ها (breast density) دقیق عمل می‌کنه. تراکم سینه یعنی اینکه چقدر بافت چربی و غددی توی سینه هست.

برای این تحقیق، تیم حدود ۱۰ هزار و ۱۵۶ عکس ماموگرافی از خانم‌های بین ۴۷ تا ۷۳ سال رو که سینه‌شون سالم بوده و هیچ نشونه‌ای از سرطان نداشتن انتخاب کردن. این عکس‌ها مال یه بانک اطلاعاتی به اسم OPTIMAM بین سال‌های ۲۰۱۲ تا ۲۰۱۵ بوده. نکته باحال اینه که برای اینکه مطمئن باشن، از داده‌های تایید شده توسط یه سیستم به نام Volpara هم استفاده کردن. (Volpara یه نرم‌افزار معتبر برای اندازه‌گیری دقیق تراکم سینه‌ست.)

حالا موضوع اصلی این بود: سه تا مدل یادگیری عمیق یا Deep Learning بهشون آموزش دادن. (یادگیری عمیق یه شاخه خفن از هوش مصنوعیه که با شبکه عصبی مصنوعی کار می‌کنه و خیلی توی تحلیل تصویر قویه). این مدل‌ها رو با سه تا دیتاست مختلف آموزش دادن: یکی فقط با دستگاه هولوژیک، یکی فقط با دستگاه جنرال الکتریک، و یکی ترکیبی که توش به طور مساوی عکس‌ از هر سه برند معروف بود (هولوژیک، جنرال الکتریک و زیمنس). زیمنس هم یه برند خیلی معروف توی تولید دستگاه‌های پزشکیه.

بعد، این مدل‌ها رو روی چهار مجموعه عکس که قبلاً ندیده بودن تست کردن: ۱. فقط عکس‌های هولوژیک، ۲. فقط جنرال الکتریک، ۳. ترکیبی از همه برندها، ۴. فقط زیمنس. برای مقایسه دقت مدل‌ها، از معیار AUC استفاده کردن. (AUC یعنی مساحت زیر منحنی ROC که نشون می‌ده مدل چقدر خوب می‌تونه بین تراکم سینه زیاد و کم تمایز بده. عددش هر چی به ۱ نزدیک‌تر باشه یعنی عملکردش عالیه.)

حالا نتیجه چی شد؟ اگه یه مدل رو فقط با عکس‌های مثلاً هولوژیک آموزش بدی و براش همون عکس‌ها رو تست کنی، نتیجه عالیه! مثلاً مدل هولوژیک رو اگر با دیتای خودش تست می‌کردن، AUCش می‌رسید به ۰/۹۸. برای جنرال الکتریک هم همینطور، AUC = ۰/۹۷. اما امان از وقتی که مدل رو با عکس‌های دستگاه‌های دیگه تست کردن: دقت افتضاح شد! مثلاً مدل آموزش‌دیده با جنرال الکتریک، روی عکس‌های هولوژیک فقط ۰/۶۸ و روی زیمنس فقط ۰/۶۳ نتیجه داد. عکس اینم صادقه: مدل هولوژیک روی جنرال الکتریک خیلی ضعیف عمل کرد (۰/۵۶) ولی روی زیمنس باز بهتر (۰/۹۰).

اما جالب‌ترین قسمت داستان این بود که اون مدل ترکیبی که با عکس‌های چند تا برند آموزش دیده بود (همه‌شون قاطی)، روی همه دیتاها بهترین کارکرد رو داشت و عملاً «سریع‌ترین و باهوش‌ترین» بود. نتیجه اینکه هرچی مدل رو با طیف وسیع‌تری از دستگاه‌ها آموزش بدی، بهتر می‌تونه خودش رو با واقعیت‌های مختلف تطبیق بده. به این می‌گن «بهبود توانایی گسترش‌دهی» یا Generalisation، یعنی مدلی که به راحتی گیر «تک‌محیطی» نمی‌افته و تو شرایط مختلف هم خوب جواب می‌ده.

از نظر آماری هم تو این پژوهش کار رو با ۹۵٪ اطمینان انجام دادن و برای مقایسه دقیق‌تر، یه ابزار خاص به نام Bayesian Signed Rank test استفاده کردن (این اسم یک روش پیشرفته برای مقایسه عملکرد چند مدل با هم دیگه‌ست).

جمع‌بندی ماجرا اینه که اگه قراره هوش مصنوعی تو کلینیک‌ها و غربالگری سرطان سینه به کار بره، باید حواسمون باشه داده‌هایی که بهش آموزش می‌دن از همه مدل دستگاه‌هایی باشه که توی مراکز مختلف استفاده می‌شن. چون هرچی «تنوع دستگاه» بیشتر باشه، احتمال اینکه هوش مصنوعی بعداً تو دنیای واقعی گول نخوره و همه رو درست راهنمایی کنه بیشتر می‌شه. حتی اگه دستگاه‌ها آپدیت یا عوض شدن، مدل هوش مصنوعی هنوزم کارایی خوبی از خودش نشون می‌ده.

خلاصه، هوش مصنوعی هم مثل خود ما، هرچی دنیای اطرافش پیچیده‌تر و متنوع‌تر باشه، باهوش‌تر می‌شه!

منبع: +