چطور مدیریت داده‌های پژوهشی رو تو علوم مواد نو کنیم؟ راهی از مدارک تا داده‌های واقعی!

اگه تو دنیای پژوهش‌های علمی، مخصوصاً علوم مواد (Materials Science)، فعالیت داشته باشی احتمالاً با مشکل مدیریت داده‌ها حسابی درگیری. واقعیت اینه که این روزها با این حجم داده‌ها و اطلاعات، داشتن یه سیستم مدیریت داده درست و حسابی از نون شب هم واجب‌تره! حالا این مقاله اومده یه روش خیلی باحال نشون بده برای اینکه چطوری کم‌کم از مدیریت سنتی مبتنی بر مدارک (مثلاً همون نگه‌داشتن پی‌دی‌اف و پژوهش تو پوشه‌ها) بریم سمت جایی که همه چیز حول محور «حقایق داده‌ای» یا همون اطلاعات واقعا مفید میچرخه.

خب اول بگم که این سیستم تازه چه فرقی داره با قبلیا؟ ما قبلاً بیشتر دنبال جمع‌کردن اسناد و مقالات بودیم، اما الان نیاز داریم داده‌هامون جوری ذخیره بشن که هم دوباره بشه ازشون استفاده کرد، هم بتونیم راحت با بقیه دانشمندا به اشتراک بذاریم. واسه همین ایده اصلی مقاله، ساختن و تکامل دادن سیستم‌هایی مثل MatInf RDMS ـه. RDMS یعنی Research Data Management System یعنی سامانه مدیریت داده‌های پژوهشی.

تو این مقاله، دو تا چارچوب جذاب معرفی شده:

۱. مدل STAR (استار): اصطلاحاً میگن یه چارچوب مبتنی بر گراف؛ گراف یعنی داده‌ها به صورت Node و Edge به هم وصل میشن. تو مدل STAR روی ۴ تا چیز کلی تاکید میشه:

Statefulness: یعنی سیستم همیشه میدونه هر داده تو چه وضعیتیه.
Traceability: بشه بفهمیم یه داده دقیقاً از کجا اومده و چه تغییراتی داشته. (مثلاً ردگیری کردنش)
Aim: هدف اصلی از جمع‌کردن هر داده یا انجام اون آزمایش چیه.
Result: نتیجه چی شده در آخر؟

۲. روش SET (ست):

Standardization: استانداردسازی، یعنی همه داده‌ها یه فرمت معلوم داشته باشن.
Extraction: استخراج داده‌ها به صورت خودکار از منابع مختلف.
Testing: تست کردن تا مطمئن شیم داده‌ها دقیق و سالم هستن.

حالا چرا اینا مهمه؟ چون کم‌کم همه دارن میرن سمت FAIR شدن داده‌ها.
FAIR یعنی چی؟ میگه داده‌ها باید:

Findable باشن (قابل جستجو)
Accessible باشن (در دسترس)
Interoperable باشن (بتونن با سیستم‌های دیگه کار کنن)
Reusable باشن (قابل استفاده مجدد باشن)

یه نکته جالب این مقاله اینه که میگه راه از سنتی به مدرن شدن اصلاً یهویی نیست؛ با گام‌های کوچیک باید سیستم رو جلو برد. مثلاً اول فقط داده‌ها رو بهتر استاندارد کنیم، بعد ارتباطاتشون رو ثبت کنیم، بعد برویم سراغ استخراج خودکار داده‌ها از مقالات و آزمایشگاه‌ها و در مرحله‌های آخر همه این دیتاها رو تست و یکپارچه کنیم تا تهِش یه دیتاست یکپارچه و خفن داشته باشیم.

خود این سیستم MatInf RDMS هم یه نمونه اجرایی همین ایده‌ست که تو پروژه‌های بزرگ مواد استفاده میشه و کلی کمک کرده تا همکاری بین دانشمندها راحت‌تر و کشف‌های علمی سریع‌تر بشه.

در کل، پیام این مقاله اینه که اگر میخواید داده‌های پژوهشی‌تون مفید، به‌دردبخور و قابل اشتراک برای کل جامعه علمی باشه، باید به فکر یه تکامل مرحله‌ای باشید. همه چیز گام به گام جلو میره؛ از جمع‌آوری ساده اسناد تا رسیدن به یه دنیای پر از داده‌های واقعی و قابل تجزیه و تحلیل!

یعنی دیگه وقتشه دانشمندها به فکر خداحافظی با پوشه‌بازی و فایل‌بازی سنتی باشن و برن سراغ سیستم‌های مدرن که داده‌محور و پیشرفته‌ان.

منبع: +