خب رفقا، امروز میخوام درباره یکی از داغترین موضوعای دنیای علم و فناوری باهاتون حرف بزنم؛ یعنی آزمایشگاههای خودگردان یا همون Self-driving Labs، که تازگیا حسابی دارن سروصدا میکنن! این آزمایشگاهها یه جورایی یه کم شبیه رباتهایی هستن که خودشون، بدون اینکه کسی بهشون بگه، آزمایش انجام میدن و با کمک Machine Learning (یعنی همون یادگیری ماشینی، که میشه گفت یه مدل هوش مصنوعیه که با تجربه یاد میگیره) کشف مواد جدید رو شتاب میدن.
حالا مشکلی که تو این سیستمها پیش میاد اینه که گاهی اطلاعات ورودیِ دستگاهها درست ثبت نمیشه یا همون ویژگیهاشون (Feature ها) به هر دلیلی نویزی و قاطیپاطی میشه. یعنی اطلاعاتی که باید تمیز و دقیق باشن، گاهی خراب درمیاد و این باعث میشه هم مدل فعلی خراب بشه و هم واسه آزمایشای بعدی دردسر درست کنه.
تو مقالهای که تازه منتشر شده (توی سایت علمی arXiv با کد arXiv:2507.16833v1 – خب اینم فقط بگم arXiv یه جور بایگانی آنلاین برای مقالات علمی و ایناست!) محققها اومدن یه روشی درست کردن که بتونن این ویژگیهای نویزی و خراب رو نهتنها پیدا کنن، بلکه تا حد خوبی هم درستشون کنن؛ یعنی بتونن حدس بزنن مقدار درست هر فیچر چی بوده و اونو برگردونن سر جاش.
اسم این تکنیک قرص و محکمشون هم هست kNN Imputation. حالا این kNN خودش مخفف k-Nearest Neighbors هست (یعنی نزدیکترین همسایهها، یه نوع الگوریتم ML که برا رسیدن به جواب سراغ موارد مشابه میره – انگار از دوستات کمک میگیری اگه خودت مطمئن نباشی)، و Imputation هم یعنی پر کردن دادههای جاافتاده یا اشتباه با یه مقدار درست و منطقی.
ماجرا از این قراره: اول با یه الگوریتم اتوماتیک شروع میکنن که بتونه تو دادههای آزمایشگاه، اون ویژگیهایی که مشکوک یا مشغول به نویزه رو پیدا کنه (یعنی Featureهایی که شبیه بقیه نیستن یا قاتی شدن رو شناسایی کنه). بعد میان با کمک همون سیستم، نمونههایی رو که قابل اصلاح هستن، پیدا میکنن و سعی میکنن مقدار درست براشون بذارن.
توی بخش تحقیقشون، محققها حسابی کنجکاوی به خرج دادن و بررسی کردن که چیا میتونه تو قدرت این سیستم تأثیر بذاره – مثلاً:
- اندازه دیتاست (یعنی اینکه چندتا نمونه داری)
- مقدار شلوغی و شدت نویز (Noise Intensity)
- و اینکه خود ویژگیها چه جوری پخش شدن (Distribution)؛ که مثلاً Valueها پیوسته هستن یا خیلی پراکندهان یا اینکه محدود و گسستهان.
نتیجههاشون جالب بود: اگه نویز زیاد باشه و دیتاستت هم بزرگ باشه، این سیستم بهتر جواب میده و راحتتر میشه فیچرهای نویزی رو شناسایی و درست کرد. نویز کم هم خب طبیعییه که سختتر پیدا بشه، اما اگه دیتای تمیز زیاد باشه، میشه تا حدی این ضعف رو جبران کرد.
یه نکته دیگه هم که فهمیدن اینه که فیچرهایی که مقداراش پیوسته یا خیلی پراکنده پخش شده، راحتتر میشه درستشون کرد نسبت به اونهایی که فقط چند تا مقدار مشخص دارن (گسستهها یا Discrete ها).
در مجموع این تحقیق نشون میده یه راهکار خیلی منعطف و مدل-آزاد (Model-Agnostic یعنی وابسته به هیچ مدل خاصی نیست و با هر الگوریتمی کار میکنه) برای بازیابی منطقی دادهها موقع نویز گرفتن، کمبود داده یا حتی توزیعهای مختلف فیچر وجود داره. تازه این روش یه جور معیاره (Benchmark یعنی ملاک و استاندارد مقایسه) که میتونی قدرت kNN Imputation رو تو دیتاستهای مواد مختلف امتحان کنی.
آخرش هم هدف همه این چیزا اینه که کیفیت دادهها و دقت آزمایشها رو تو حوزه کشف مواد اتوماتیک بالا ببره و کار رو برای دانشمندها و مهندسها راحتتر کنه.
پس خلاصه که اگه دوست دارین بدونین چطوری میشه دادههای قاط زده رو تو آزمایشگاههای هوشمند پیدا و تر و تمیز کرد، این مقاله رو باید حتماً یه نگاهی بندازین. هم کلی ایده دارید میگیرید، هم زبانش نسبتا روون و کاربردیشه. اگرم چیزی براتون گنگ بود، بهم بگین تا بازم توضیح بدم!
منبع: +