داستان بانک‌های دیتای علمی پزشکی تو چین: چطوری دیتاها رو جمع و جور کردن و چه پیشنهادایی برا بهتر شدنشون دارن!

بیا یه بار کلی با هم بریم سراغ یه موضوع جالب و تخصصی! اگه برات سواله که تو چین چطور دیتای پزشکی رو نگهداری و به اشتراک میذارن—or repositoryهاشون چی هست— این مقاله یه نگاه کامل و رفیق‌گونه به ماجرا داره و تازگی‌ها یکسری تحقیق هم روش انجام دادن! خب، بذار اول خیلی ساده بگم: وقتی میگیم Open-access repositories یا به اختصار OARs، یعنی بانک‌های داده‌ای که هرکی دوست داشت می‌تونه بره دیتای علمی رو ازشون بگیره یا دیتا بذاره. تو دنیا بحث Open Science یا علم باز خیلی داغ شده، همین یعنی آدمای بیشتر بتونن راحت به داده‌های علمی دسترسی داشته باشن و علم واسه همه شفاف‌تر و قابل استفاده‌تر بشه. مثلاً اگه محققی تو چین یه تحقیق پزشکی انجام داده، دیتای خام یا نتایجش رو تو این بانک‌ها آپلود می‌کنن و میذارن همه ببینن و ازش استفاده کنن.

تو این تحقیق یه تیم اومده سراغ OARهای پزشکی چین که تو دوتا سرویس مهم جهانی ثبت شدن: re3data.org و OpenDOAR.org. (اینا لیستی از همه بانک داده‌های روز دنیا رو جمع کردن، مثل یه دایرکتوری عظیم!) می‌خواستن ببینن تو چین این بانک‌های داده چطور ساخته شدن، چه جوری دیتاها رو دسته‌بندی کردن، چه مدلی توصیف (description) داده‌های هر تحقیق رو نوشتن، و جست‌وجو و استفاده از این دیتابیس‌ها چقدر راحته.

روش کارشون چجوری بود؟ خیلی ساده و در عین حال دقیق: دوازده تا از OARهای معتبر پزشکی چین رو انتخاب کردن که تو اون دوتا سایت بین‌المللی ثبت شده بودن. سایت هر کدوم رو حسابی زیر و رو کردن (در بازه زمانی ۱ تا ۳۰ می ۲۰۲۳) و سعی کردن بفهمن محتواها و دیتاها رو چطور مدیریت کردن. برای تحلیل دیتاها هم علاوه بر نگاه کیفی (یعنی بررسی محتوا)، سراغ شمارش و بررسی دقیق‌تر داده‌ها با روش‌های کمی هم رفتن؛ خلاصه یه کار تمیز و حرفه‌ای انجام دادن.

حالا مهم‌ترین چیزایی که پیدا کردن چی بود؟ بیا با زبان خودمونی بگم:

۱. گفتن که تو دسته‌بندی داده‌ها باید چندبعدی رفتار کنین، یعنی فقط نگین این داده «پزشکی»ه، بلکه مثلاً ذکر کنید برای چه زیرشاخه‌ایه (مانند آنکولوژی یا قلب و عروق) و حتی شاید توضیح بدین که زمینه بیمارستانی داره یا تحقیقاتی. اینجوری پیدا کردن دیتا خیلی آسون‌تر میشه.

۲. استفاده از Persistent data identifiers یا همون شناسه‌های دائمی دیتا، لازم و واجبه؛ (یعنی یه کدی که هر دیتای خاص رو برای همیشه قابل ردیابی نگه‌میداره، مثل DOI که مقالات علمی دارن.) این باعث میشه کسی اگه یه داده رو یه بار پیدا کرد، دیگه گم نشه!

۳. نیاز دارن که metadata یا همون توصیفات هر دیتا رکورد رو استاندارد کنن؛ یعنی هر داده‌ای باید یه سری توضیحات مشخص و یکدست داشته باشه تا همه بفهمن چی به چیه. Metadata دقیق مثل راهنمای پیدا کردن دیتای درست و مورد نیاز تو یه انباری بزرگه.

۴. باید امکان جست‌وجوی پیشرفته‌تر و فیلتر نتایج بهتر فراهم کنن؛ چون حجم داده‌ها داره میره بالا و مردم دوست دارن سریعتر دقیقاً همون چیزی رو که می‌خوان پیدا کنن.

۵. باید امکانات پیش‌نمایش و تعامل (interaction) با دیتا رو تقویت کنن. یعنی قبل از اینکه کسی دیتا رو دانلود کنه، بتونه یه پیش‌نمایش ازش ببینه یا خلاصه‌ای بخونه، یا شاید فیدبک بده یا سوال بپرسه. این موجب راحت‌تر شدن استفاده کاربرا میشه.

اینم جالبه بدونی: دامنه این تحقیق فقط مربوط به همون ۱۲ تا بانک داده پزشکی چینه که تو re3data و OpenDOAR ثبت شدن و بررسی شدن. یعنی اگه جای دیگه تو چین OARای پزشکی دیگه‌ای باشه که همین‌جا ثبت نشده باشه داخل این بررسی نبوده. پس نتایجش فعلاً مختص به همین جمع کوچیکه اما خب چون بانک‌های مهمی هستن، کلی نمای کلی از وضعیت چین بهمون میده. از طرف دیگه، تمرکز و خروجی تحقیق هم دقیقاً رو مدیریت و ساختاردهی داده‌های پزشکی تو چین بوده، نه رشته‌های دیگه.

در آخر، دوستانی که این تحقیق رو انجام دادن تاکید کردن کارشون واسه این مهمه که نشون میده چین تو مدیریت دیتای تحقیقاتی پزشکی (که خیلی هم حجمش بالا رفته) کجا وایساده و چقدر با جریان open science جهانی همراهه.

در کل اگه خلاصه بخوای: بانک‌های داده علمی پزشکی تو چین هنوز جا واسه بهتر شدن زیاد دارن، اما مسیرشون روبه‌جلوه، برنامه دارن آپگرید بشن و فقط باید به نکاتی مثل دسته‌بندی قوی‌تر، توضیحات استانداردتر، جستجوی پیشرفته‌تر و تعامل کاربر با دیتا بیشتر توجه کنن.

حالا اگه سوال داشتی که فلان اصطلاح چی بود یا خواستی برید سمت دیتابیس‌های علمی یا پزشکی تو چین و آرشیوهاشون، بدون این نکته‌ها کمکت می‌کنه که راحتتر سراغ دیتاها بری!

منبع: +