لو رفتن اطلاعات شخصی تو دیتاست‌های آموزش هوش مصنوعی: عکس پاسپورتت هم اینجاست!

تا حالا فکر کردی همه چی که تو اینترنت میذاری، حتی عکس پاسپورت، کارت ملی، یا حتی رزومه‌ و آدرس خونت، ممکنه یه جایی تو دل هوش مصنوعی‌ها ذخیره شده باشه و خودت خبر نداشته باشی؟ خب، یه تحقیق جدید نشون داده تو یکی از بزرگترین دیتاست‌های آموزش تصویر برای هوش مصنوعی به اسم DataComp CommonPool، کلی اطلاعات شخصی آدما پیدا شده. دیتاست یا “Data set” یعنی همون مجموعه بزرگی از داده‌ها (مثلاً عکس یا متن) که باهاش مدل‌های هوش مصنوعی رو آموزش میدن.

این محقق‌ها تنها ۰.۱ درصد این دیتاست رو بررسی کردن (یعنی واقعاً مقدار خیلی کمی!) ولی هزاران عکس واضح از چهره‌ها و اسناد هویتی مثل کارت اعتباری، گواهینامه، پاسپورت، شناسنامه و… پیدا کردن. حتی حدود ۸۰۰ رزومه و مدارک شغلی معتبر هم دیدن که مربوط به افراد واقعی بود. یعنی احتمالاً تو کل دیتاست، صدها میلیون تصویر اطلاعات شخصی هست که شاید حتی خود دارندگانش خبر ندارن!

مثلاً رزومه‌هاشون اطلاعات حساسی مثل وضعیت سلامتی، معلولیت، نتایج استعلام سوءسابقه، تاریخ و مکان تولد فرزندان، نژاد، آدرس خونه و شماره تماس خودشون یا معرف‌هاشون رو لو داده بودن. خلاصه خیلی چیزها که حتی آدم فکرش رو هم نمی‌کنه امکان داره اینجوری سِر (scrape) بشه.

خود دیتاست DataComp CommonPool که سال ۲۰۲۳ منتشر شد، با ۱۲.۸ میلیارد داده‌ی تصویر-متن، یکی از بزرگترین دیتاست‌ها برای آموزش مدل‌های تصویرساز هوش مصنوعی بوده. مدل‌های Generative AI یعنی مدل‌هایی که می‌تونن خودشون چیز جدید بسازن، مثلاً یه تصویر بر اساس توضیحات شما تولید کنن.

بخشی از داستان اینجاست که CommonPool بر پایه‌ای از اطلاعات ساخته شده که توسط یه سازمان غیرانتفاعی به اسم Common Crawl از اینترنت بین سال‌های ۲۰۱۴ تا ۲۰۲۲ جمع‌آوری شده. این کار با روش Web Scraping بوده که یعنی یه سری ربات وب رو شخم می‌زنن و دیتای همه چی رو جمع می‌کنن. جالبه بدونی دیتاست LAION-5B که برای مدل‌های معروفی مثل Stable Diffusion و Midjourney هم استفاده شده، دقیقاً از همین منبع جمع شده. پس احتمالاً اطلاعات شخصی تو اون‌ها هم هست و این داستان فقط مال CommonPool نیست.

یه نکته مهم اینه که CommonPool تا حالا بیش از ۲ میلیون بار دانلود شده! یعنی احتمال داره کلی مدل دیگه هم که ما نمی‌شناسیم، با همین داده‌ها آموزش دیده باشن و این خطر رو تکثیر می‌کنن.

حالا شاید فکر کنی که حتماً یه سری فیلتر یا محافظت کار گذاشتن تا جلوی لو رفتن این اطلاعات رو بگیرن. ولی در واقع فیلترها خیلی ناقص بودن. مثلاً یه الگوریتم اتوماتیک چهره‌ها رو تار (blur) می‌کرد، اما تو نمونه کوچیک محقق‌ها، بیش از ۸۰۰ چهره رو پیدا کردن که فیلتر از قلم انداخته بود. خودشون تخمین زدن این الگوریتم کلاً تو دیتاست بالغ بر ۱۰۲ میلیون چهره رو نادیده گرفته. تازه این فقط چهره بود! به اطلاعات متنی مثل ایمیل یا شماره ملی یا captionها (که همون متن‌های زیرعکس هستن) اصلاً کاری نداشتن و خیلی راحت اینها هم باقی مونده.

حتی اون فیلتری که چهره‌ها رو تار می‌کنه هم قابل برداشته، یعنی کاربرها می‌تونن خودشون حذفش کنن. اسم‌هایی مثل Hugging Face که یه پلتفرم توزیع دیتاست هست، ابزارهایی برای جستجو و حذف اطلاعات شخصی گذاشته، اما واقعاً چند نفر می‌دونن باید دنبال کدوم اطلاعاتشون بگردن؟ و آیا اصلاً پیدا می‌کنن؟

مسئله اینجاست که حتی اگه بری و اطلاعاتت رو حذف کنی، مدلِ هوش مصنوعی‌ای که قبلاً با اون آموزش دیده، اطلاعات تو رو به شکلی یاد گرفته و دیگه نمی‌شه اثرش رو کامل پاک کرد. یه جورایی دیگه کار از کار گذشته. تو قوانین مثل GDPR اروپا یا CCPA کالیفرنیا اومده که افراد حق حذف اطلاعات شخصی‌شون رو دارن، اما قانون هنوز شفاف نیست که ریتِرین نشدن مدل‌های آموزش‌دیده شده هم شاملشه یا نه.

یه چالش بزرگ‌تر هم اینه که خیلی از این قوانین فقط برای شرکت‌های بزرگ یا با خصوصیت مشخص نوشته شدن و محقق‌هایی که دیتاست می‌سازن کلاً خارج از این دایره قرار می‌گیرن. تازه کلی استثنا هم وجود داره. مثلاً طبق قانون وقتی اطلاعات «عمومی» حساب می‌شن، دیگه محدودیتی براشون نمی‌ذارن. محقق‌ها دقیقاً با همین استدلال می‌گن هر چی تو اینترنت هست، یعنی عمومی و آزاد برای استفاده. اما ببین چقدر چیزهای شخصی و خصوصی توی این دسته حساب می‌شن که خودمون هم فکر نمی‌کردیم: رزومه، عکس بچگی، کارت اعتباری، داستان زندگی تو وبلاگ‌های قدیمی، و کلی چیز خارج از میل خودمون.

باحاله بدونی خیلی از عکس‌ها و مدارک حتی مربوط به کودکان بودن، مثلاً شناسنامه، پاسپورت یا وضعیت سلامتی، که برای یه منظور محدود (مثلاً ثبت‌نام تو مدرسه یا معرفی تو وبلاگ کوچیک خانوادگی) آپلود شده بوده. ولی الان رفتن تو دیتاستی که برای آموزش کلی مدل تصویرساز AI استفاده می‌شه. خلاصه هر چی یه بار تو اینترنت بذاری، دیگه معلوم نیست کجا و چظوری دوباره سر دربیاره!

بحث اصلی این محقق‌ها اینه که زمانشه جامعه هوش مصنوعی استفاده خیلی راحت از داده‌های وب رو مرور کنه و داستان رضایت (Consent) رو جدی بگیره. چون خیلی از داده‌ها قبل از فراگیر شدن AI آپلود شده و هیچ‌کسی فکرش رو نمی‌کرد برای آموزش مدل‌های هوش مصنوعی جمع بشه. تازه به دلیل اینکه ربات‌های Scaper هی از هم کپی می‌کنن و اطلاعات رو دوباره نشر می‌دن، حتی اگه یه جا اطلاعاتت رو حذف کنی، ممکنه تو جاهای دیگه هنوز باشه.

در انتها هم یکی از محقق‌ها می‌گه: «اگه داری وب رو scrape می‌کنی، حتماً توی دیتاهات اطلاعات خصوصی جمع کردی—حتی اگه تلاش کنی فیلتر کنی، باز با این حجم عظیم نمی‌تونی همه رو بپوشونی.»

پس دفعه بعد که داشتی یه مدرک یا عکسی رو تو اینترنت آپلود می‌کردی، یادت باشه امکان داره یه مدل هوش مصنوعی اون رو بعدها تو دیتاست آموزش خودش داشته باشه، مگر اینکه سیاست‌های جدی‌تر و قوانین سخت‌تر برای محافظت از اطلاعات شخصی تصویب بشه. این تحقیق صدای خطر رو بلند کرده تا بالاخره تغییراتی در قوانین و فرهنگ کار با داده عمومی تو AI ایجاد بشه.

منبع: +