تصادفی کردن یا همون Randomization یکی از پایهایترین کارها توی تحقیقات آزمایشیه. یعنی وقتی توی یه آزمایش، مثلاً آدمها رو توی گروههای مختلف تقسیم میکنیم، باید مطمئن باشیم همهچی واقعا تصادفی انجام شده و مثلاً گروهها از لحاظ ویژگیهای خاصی با هم فرق نداشته باشن. اما خب، همیشه این تصادفی بودن تضمینشده نیست! حالا این مقاله اومده یه ترفند خیلی باحال با کمک هوش مصنوعی (همون ML یا Machine Learning یعنی یادگیری ماشین – وقتی به کامپیوتر یاد میدیم که خودش الگو پیدا کنه) معرفی کرده تا مطمئن باشیم این تصادفیسازی واقعا درست اتفاق افتاده یا نه.
چی کار کردن؟ یه بازی یادگیری ساختن با دو سناریو متفاوت که بازیکنا باید تصمیم بگیرن. بعدش اومدن سراغ مدلهای مختلف هوش مصنوعی! مدلها رو اینجوری آزمایش کردن:
مدلهای Supervised (یعنی مدلهایی که بهشون دادیم اطلاعات کافی تا بفهمن باید چی پیشبینی کنن – مثلاً Logistic Regression، Decision Tree و SVM که همشون مدلهاییان برای دستهبندی اطلاعات) تونستن به دقت ۸۷٪ برسن، اما فقط وقتی کلی داده مصنوعی (synthetic data یعنی دادههایی که خودمون ساختیم تا نمونه بزرگتر شه) به دیتابیس اضافه کردن.
مدلهای Unsupervised (یعنی اونایی که خودشون باید کشف کنن چی به چیه، مثل k-means، k-nearest neighbors یا همون KNN، و حتی ANN یا Artificial Neural Networks، که شبکه عصبی مصنوعی هستن و از مکانیسم مغز الهام گرفتن تا دادهها رو تحلیل کنن)، به خوبی مدلهای قبلی کار نکردن. مخصوصاً ANN خیلی دچار overfitting شد (یعنی مدل خیلی با دادههای آموزش دیده اش خوب کار میکنه، اما روی دادههای جدید اصلاً قابل اعتماد نیست)، حتی وقتی داده مصنوعی اضافه کرده بودن.
یه بخش جالب دیگه، تحلیل اهمیت ویژگیها (feature importance analysis) بود. یعنی فهمیدن چه چیزایی بیشتر بر انتخاب گروه آدمها تاثیر داشته. این نشون داد توی همین تصادفیسازی هم احتمال داره یه سوگیری (bias) پیش بیاد و بشه از طریق هوش مصنوعی پیداش کرد.
در کل، این مدلها میتونن کمک کنن بفهمیم الگوهای غیرتصادفی تو تقسیمبندی شرکتکنندهها هست یا نه. اما حواستون باشه! اندازه نمونه و پیچیدگی طراحی آزمایش خیلی تاثیر داره رو عملکرد این روش، و همیشه نمیتونه جواب صددرصدی بده. مقاله پیشنهاد میکنه که اگه کسی خواست این روشو تو تحقیقاتش استفاده کنه، حتماً با دقت و احتیاط پیش بره و باز هم از روشهای دیگه کمک بگیره.
خلاصه اگر اهل کار تحقیقاتی و بازی و هوش مصنوعیای، این تکنیک رو حتماً یه بار امتحان کن، ولی همه چی رو هم نسپر به ML؛ همیشه باید چشمت به طراحی آزمایش هم باشه!
منبع: +