ماجرای هیجان‌انگیز پیدا کردن و درست‌کردن ویژگی‌های شلوغ‌پلوغ تو آزمایشگاه‌های خودگردان با کمک kNN!

خب رفقا، امروز میخوام درباره یکی از داغ‌ترین موضوعای دنیای علم و فناوری باهاتون حرف بزنم؛ یعنی آزمایشگاه‌های خودگردان یا همون Self-driving Labs، که تازگیا حسابی دارن سروصدا می‌کنن! این آزمایشگاه‌ها یه جورایی یه کم شبیه ربات‌هایی هستن که خودشون، بدون اینکه کسی بهشون بگه، آزمایش انجام میدن و با کمک Machine Learning (یعنی همون یادگیری ماشینی، که میشه گفت یه مدل هوش مصنوعیه که با تجربه یاد می‌گیره) کشف مواد جدید رو شتاب میدن.

حالا مشکلی که تو این سیستم‌ها پیش میاد اینه که گاهی اطلاعات ورودیِ دستگاه‌ها درست ثبت نمیشه یا همون ویژگی‌هاشون (Feature ها) به هر دلیلی نویزی و قاطی‌پاطی میشه. یعنی اطلاعاتی که باید تمیز و دقیق باشن، گاهی خراب درمیاد و این باعث میشه هم مدل فعلی خراب بشه و هم واسه آزمایشای بعدی دردسر درست کنه.

تو مقاله‌ای که تازه منتشر شده (توی سایت علمی arXiv با کد arXiv:2507.16833v1 – خب اینم فقط بگم arXiv یه جور بایگانی آنلاین برای مقالات علمی و ایناست!) محقق‌ها اومدن یه روشی درست کردن که بتونن این ویژگی‌های نویزی و خراب رو نه‌تنها پیدا کنن، بلکه تا حد خوبی هم درستشون کنن؛ یعنی بتونن حدس بزنن مقدار درست هر فیچر چی بوده و اونو برگردونن سر جاش.

اسم این تکنیک قرص و محکم‌شون هم هست kNN Imputation. حالا این kNN خودش مخفف k-Nearest Neighbors هست (یعنی نزدیک‌ترین همسایه‌ها، یه نوع الگوریتم ML که برا رسیدن به جواب سراغ موارد مشابه میره – انگار از دوستات کمک می‌گیری اگه خودت مطمئن نباشی)، و Imputation هم یعنی پر کردن داده‌های جاافتاده یا اشتباه با یه مقدار درست و منطقی.

ماجرا از این قراره: اول با یه الگوریتم اتوماتیک شروع می‌کنن که بتونه تو داده‌های آزمایشگاه، اون ویژگی‌هایی که مشکوک یا مشغول به نویزه رو پیدا کنه (یعنی Feature‌هایی که شبیه بقیه نیستن یا قاتی شدن رو شناسایی کنه). بعد میان با کمک همون سیستم، نمونه‌هایی رو که قابل اصلاح هستن، پیدا می‌کنن و سعی می‌کنن مقدار درست براشون بذارن.

توی بخش تحقیقشون، محقق‌ها حسابی کنجکاوی به خرج دادن و بررسی کردن که چیا می‌تونه تو قدرت این سیستم تأثیر بذاره – مثلاً:

اندازه دیتاست (یعنی اینکه چندتا نمونه داری)
مقدار شلوغی و شدت نویز (Noise Intensity)
و اینکه خود ویژگی‌ها چه جوری پخش شدن (Distribution)؛ که مثلاً Valueها پیوسته هستن یا خیلی پراکنده‌ان یا اینکه محدود و گسسته‌ان.

نتیجه‌هاشون جالب بود: اگه نویز زیاد باشه و دیتاستت هم بزرگ باشه، این سیستم بهتر جواب میده و راحت‌تر میشه فیچرهای نویزی رو شناسایی و درست کرد. نویز کم هم خب طبیعی‌یه که سخت‌تر پیدا بشه، اما اگه دیتای تمیز زیاد باشه، میشه تا حدی این ضعف رو جبران کرد.

یه نکته دیگه هم که فهمیدن اینه که فیچرهایی که مقداراش پیوسته یا خیلی پراکنده پخش شده، راحت‌تر میشه درستشون کرد نسبت به اون‌هایی که فقط چند تا مقدار مشخص دارن (گسسته‌ها یا Discrete ها).

در مجموع این تحقیق نشون می‌ده یه راهکار خیلی منعطف و مدل-آزاد (Model-Agnostic یعنی وابسته به هیچ مدل خاصی نیست و با هر الگوریتمی کار می‌کنه) برای بازیابی منطقی داده‌ها موقع نویز گرفتن، کمبود داده یا حتی توزیع‌های مختلف فیچر وجود داره. تازه این روش یه جور معیاره (Benchmark یعنی ملاک و استاندارد مقایسه) که می‌تونی قدرت kNN Imputation رو تو دیتاست‌های مواد مختلف امتحان کنی.

آخرش هم هدف همه این چیزا اینه که کیفیت داده‌ها و دقت آزمایش‌ها رو تو حوزه کشف مواد اتوماتیک بالا ببره و کار رو برای دانشمندها و مهندس‌ها راحت‌تر کنه.

پس خلاصه که اگه دوست دارین بدونین چطوری می‌شه داده‌های قاط زده رو تو آزمایشگاه‌های هوشمند پیدا و تر و تمیز کرد، این مقاله رو باید حتماً یه نگاهی بندازین. هم کلی ایده دارید می‌گیرید، هم زبانش نسبتا روون و کاربردیشه. اگرم چیزی براتون گنگ بود، بهم بگین تا بازم توضیح بدم!

منبع: +