بیا یه داستان باحال برات تعریف کنم! تصور کن میخوای برای یه مدل هوش مصنوعی، مثل اونهایی که کاراشون تو پزشکیه، یه دیتاست درست کنی که ابعاد طحال رو با سیتیاسکن میسنجه. اصلاً کار سادهای نیست! مخصوصا اگه نخوای خطا یا داده عجیبی قاطی سیستم شه. دردسر اینجا شروع میشه که هنوز هیچ راه قطعی و مصوب جهانی برای اینکه بفهمیم کدوم دادهها عجیب و غریب یا اصطلاحاً “آوتلایر” یا “استثنا” هستن وجود نداره. این موضوع میتونه باعث شه هوش مصنوعی اشتباه کنه و خروجی نهایی خیلی بیکیفیت از آب دربیاد.
خب تو این تحقیق جالب، یه تیم اومده و نشسته کلی تصویر سیتیاسکن از طحال جم کرده. منظورم دقیقا ۱۹۷ تا بیمار مختلفه! بعدشم سه تا رادیولوژیست – یعنی متخصصهایی که کارشون نگاه کردن به عکسهای پزشکیه و تفسیر اونهاست – نشستن دادهها رو برچسب زدن. برچسبزدن یعنی دقیقاً گفتن هر عدد یا اندازه مربوط به چی هست یا چه ویژگیای داره.
حالا سوال اصلی اینه: چطور بفهمیم تو این دادهها، کدوم مورد عجیب یا غیر نرماله؟ مثلاً فکر کن یه سیتیاسکن داری که طحالش بر خلاف بقیه، شکل خیلی خاص یا سایز غیرمعمول داره (مثلاً طحال هلالیشکل یا سهگوش یا با لوب اضافی!). یا مثلاً یکی اندازهگیری رو اشتباه وارد کرده باشه. اینا همون چیزهایین که بهشون میگیم “آنومالی” یا همون داده غیرعادی، و اگر تو دیتاست بمونن، آموزش هوش مصنوعی رو مختل میکنن.
حالا بریم سراغ این که این تیم چی کار کرده. روشهایی که امتحان کردن، خیلی متنوع بوده:
-
روشهای بصری: یعنی با چشم و با نمودار نگاه کنی ببینی چی غیرعادیه. مثل نمودار جعبهای یا باکسپلات (boxplot)، هیستوگرام (همون نمودار ستونی)، نقشه حرارتی (heatmap)، نمودار پراکندگی (scatter plot) و قاعده ۱.۵ دامنه چارکی (یعنی تو دادهها تشخیص بدی چه مقداری خارج از بازه طبیعی افتاده). این روشها بیشتر به شهود و تجربه آدمها برمیگرده.
-
روشهای الگوریتمی مبتنی بر هوش مصنوعی: مثل آیلِیشِن فارست (Isolation Forest – یه الگوریتم که داده هایی که جنبه غیرعادی دارن رو جدا میکنه)، K-nearest neighbors یا همون KNN (یعنی نزدیکترین همسایهها رو برای هر داده پیدا میکنه و میسنجه که داده خیلی با بقیه فرق داره یا نه)، OSVM یا One-class Support Vector Machine (این یکی کلاً میاد دادههای غیرطبیعی رو در برابر دادههای نرمال پیدا میکنه)، لوکال آوتلایر فاکتور (یعنی فاکتوری که نشون میده چقدر یه داده توی همسایگی خودش عجیبه)، الگوریتم DBSCAN (Density-Based Spatial Clustering of Applications with Noise – اینم ببین چه اسمی داره! یعنی خوشهبندی مبتنی بر تراکم دادهها با شناسایی نویزها)، الپتیک انولوپ (EllipticEnvelope) و البته آتواینکدرها یا Autoencoders (اینها مدلی از شبکه عصبی هستن که خودشون داده رو میگیرن و خلاصهسازی میکنن، بعد اگه چیزی مقایر با مدل بره بیرون، به عنوان داده عجیب علامت میزنن).
-
روشهای آماری ریاضی: مثل z-score (اندازهگیری اینکه هر مقدار چقدر با میانگین فاصله داره)، تست گراوبز (Grubb’s test – برای پیدا کردن دادههای غیرعادی)، تست روزنر (Rosner’s test – همین کار رو برای چندتا داده عجیب همزمان انجام میده).
حالا خودت تصور کن این همه ابزار و الگوریتم رو میارن وسط واسه یه دیتاست پزشکی. نتیجه چی شد؟ بنیادیترین خطاهایی که پیدا شد مربوط به اشتباه تو اندازهگیری، وارد کردن داده اشتباه، یا اینکه یکی از طحالها یه شکل ناجور زده بود بیرون! مثلاً طحالهایی که شکلاشون غیر از حالت معمولی بودن یا خیلی بزرگ بودن.
در نهایت جالب این بود که از همه این روشها، تکنیکهای بصری (مثل همون نمودارهای باکسپلات و هیستوگرام) به همراه چند تا از الگوریتمهای هوش مصنوعی – مثل OSVM (اون ماشین بردار پشتیبان کلاس تکی)، KNN و آتواینکدرها – بهترین کارایی رو داشتن. تو کل این داستان، تونستن ۳۲ مورد داده عجیب رو از کل دیتاست پیدا کنن! این تعداد کم نیست و نشون میده چقدر مهمه همین بررسیها انجام بشه.
در آخر اینم بگم که نویسندهها گفتن: برای اینجور دیتاستهای پیچیده پزشکی، فقط تکیه کردن به ریاضیات یا فقط الگوریتمهای هوش مصنوعی کافی نیست. باید ترکیبی از دانش آماری، تجربه بالینی (یعنی نظر کارشناسهای پزشکی) و ابزارهای بصری استفاده شه تا دیتاست واقعاً سالم و بدون خطا بمونه.
پس اگه یه وقت خواستی هوش مصنوعی رو برای پزشکی تعلیم بدی، یادت باشه که تنها به نمودار و فرمول دل نبند! دست آخر، نگاه دقیق و همفکری یه تیم حرفهای (هم آماری، هم پزشکی) خیلی کار رو جلو میبره.
منبع: +