بیا یه بار کلی با هم بریم سراغ یه موضوع جالب و تخصصی! اگه برات سواله که تو چین چطور دیتای پزشکی رو نگهداری و به اشتراک میذارن—or repositoryهاشون چی هست— این مقاله یه نگاه کامل و رفیقگونه به ماجرا داره و تازگیها یکسری تحقیق هم روش انجام دادن! خب، بذار اول خیلی ساده بگم: وقتی میگیم Open-access repositories یا به اختصار OARs، یعنی بانکهای دادهای که هرکی دوست داشت میتونه بره دیتای علمی رو ازشون بگیره یا دیتا بذاره. تو دنیا بحث Open Science یا علم باز خیلی داغ شده، همین یعنی آدمای بیشتر بتونن راحت به دادههای علمی دسترسی داشته باشن و علم واسه همه شفافتر و قابل استفادهتر بشه. مثلاً اگه محققی تو چین یه تحقیق پزشکی انجام داده، دیتای خام یا نتایجش رو تو این بانکها آپلود میکنن و میذارن همه ببینن و ازش استفاده کنن.
تو این تحقیق یه تیم اومده سراغ OARهای پزشکی چین که تو دوتا سرویس مهم جهانی ثبت شدن: re3data.org و OpenDOAR.org. (اینا لیستی از همه بانک دادههای روز دنیا رو جمع کردن، مثل یه دایرکتوری عظیم!) میخواستن ببینن تو چین این بانکهای داده چطور ساخته شدن، چه جوری دیتاها رو دستهبندی کردن، چه مدلی توصیف (description) دادههای هر تحقیق رو نوشتن، و جستوجو و استفاده از این دیتابیسها چقدر راحته.
روش کارشون چجوری بود؟ خیلی ساده و در عین حال دقیق: دوازده تا از OARهای معتبر پزشکی چین رو انتخاب کردن که تو اون دوتا سایت بینالمللی ثبت شده بودن. سایت هر کدوم رو حسابی زیر و رو کردن (در بازه زمانی ۱ تا ۳۰ می ۲۰۲۳) و سعی کردن بفهمن محتواها و دیتاها رو چطور مدیریت کردن. برای تحلیل دیتاها هم علاوه بر نگاه کیفی (یعنی بررسی محتوا)، سراغ شمارش و بررسی دقیقتر دادهها با روشهای کمی هم رفتن؛ خلاصه یه کار تمیز و حرفهای انجام دادن.
حالا مهمترین چیزایی که پیدا کردن چی بود؟ بیا با زبان خودمونی بگم:
۱. گفتن که تو دستهبندی دادهها باید چندبعدی رفتار کنین، یعنی فقط نگین این داده «پزشکی»ه، بلکه مثلاً ذکر کنید برای چه زیرشاخهایه (مانند آنکولوژی یا قلب و عروق) و حتی شاید توضیح بدین که زمینه بیمارستانی داره یا تحقیقاتی. اینجوری پیدا کردن دیتا خیلی آسونتر میشه.
۲. استفاده از Persistent data identifiers یا همون شناسههای دائمی دیتا، لازم و واجبه؛ (یعنی یه کدی که هر دیتای خاص رو برای همیشه قابل ردیابی نگهمیداره، مثل DOI که مقالات علمی دارن.) این باعث میشه کسی اگه یه داده رو یه بار پیدا کرد، دیگه گم نشه!
۳. نیاز دارن که metadata یا همون توصیفات هر دیتا رکورد رو استاندارد کنن؛ یعنی هر دادهای باید یه سری توضیحات مشخص و یکدست داشته باشه تا همه بفهمن چی به چیه. Metadata دقیق مثل راهنمای پیدا کردن دیتای درست و مورد نیاز تو یه انباری بزرگه.
۴. باید امکان جستوجوی پیشرفتهتر و فیلتر نتایج بهتر فراهم کنن؛ چون حجم دادهها داره میره بالا و مردم دوست دارن سریعتر دقیقاً همون چیزی رو که میخوان پیدا کنن.
۵. باید امکانات پیشنمایش و تعامل (interaction) با دیتا رو تقویت کنن. یعنی قبل از اینکه کسی دیتا رو دانلود کنه، بتونه یه پیشنمایش ازش ببینه یا خلاصهای بخونه، یا شاید فیدبک بده یا سوال بپرسه. این موجب راحتتر شدن استفاده کاربرا میشه.
اینم جالبه بدونی: دامنه این تحقیق فقط مربوط به همون ۱۲ تا بانک داده پزشکی چینه که تو re3data و OpenDOAR ثبت شدن و بررسی شدن. یعنی اگه جای دیگه تو چین OARای پزشکی دیگهای باشه که همینجا ثبت نشده باشه داخل این بررسی نبوده. پس نتایجش فعلاً مختص به همین جمع کوچیکه اما خب چون بانکهای مهمی هستن، کلی نمای کلی از وضعیت چین بهمون میده. از طرف دیگه، تمرکز و خروجی تحقیق هم دقیقاً رو مدیریت و ساختاردهی دادههای پزشکی تو چین بوده، نه رشتههای دیگه.
در آخر، دوستانی که این تحقیق رو انجام دادن تاکید کردن کارشون واسه این مهمه که نشون میده چین تو مدیریت دیتای تحقیقاتی پزشکی (که خیلی هم حجمش بالا رفته) کجا وایساده و چقدر با جریان open science جهانی همراهه.
در کل اگه خلاصه بخوای: بانکهای داده علمی پزشکی تو چین هنوز جا واسه بهتر شدن زیاد دارن، اما مسیرشون روبهجلوه، برنامه دارن آپگرید بشن و فقط باید به نکاتی مثل دستهبندی قویتر، توضیحات استانداردتر، جستجوی پیشرفتهتر و تعامل کاربر با دیتا بیشتر توجه کنن.
حالا اگه سوال داشتی که فلان اصطلاح چی بود یا خواستی برید سمت دیتابیسهای علمی یا پزشکی تو چین و آرشیوهاشون، بدون این نکتهها کمکت میکنه که راحتتر سراغ دیتاها بری!
منبع: +