چطور میشه داده‌های جدولی ساختگی رو با یه مدل خفن از تو هر جدول شناسایی کرد؟

Fall Back

این روزا با پیشرفت هوش مصنوعی‌هایی که خودشون تولید محتوا می‌کنن (مثلاً Generative AI یعنی ساختن چیزهایی مثل تصویر، متن، و صدالبته داده)، کلی نگرانی درباره اصل بودن یا نبودن داده‌ها به‌وجود اومده. خب همه سراغ تصاویر و متن رفتن و سعی کردن بفهمن چی واقعیه چی ساختگی، اما یه جا تقریباً کسی بهش توجه نکرد: داده‌های جدولی یا همون Table Data که کلی تو بانک‌ها، بیمارستان‌ها، شرکت‌ها و غیره استفاده میشه.

حالا مشکل اینجاست که داده‌های جدولی خیلی متنوع‌ان و فرمت‌هاشون هی فرق داره. مثلاً یه بار ممکنه جدول فروش باشه، یه بار جدول دمای شهرها، یه بار جدول کاربران یک سایت—فرمت‌ها و ستون‌هاش عوض میشه. همین باعث میشه روش‌های قدیمی اصلاً نتونن تشخیص بدن این جدول ساختگیه یا واقعی.

تو این مقاله اومدن دقیقاً همین چالش رو بررسی کردن: یعنی بتونیم تو هر شرایط و هر جدول عجیبی، داده ساختگی رو تشخیص بدیم.

فاز جالبش اینه که تیم پژوهشگرها یه ایده خیلی پیشرفته اجرا کردن: استفاده از ساختار Transformer که یه مدل هوش مصنوعی قدرتمنده (مثلاً Transformer مدلیه که پشت پرده ChatGPT و Bard و کلی مدل زبون دیگه‌ست)؛ اما به جای کار روی متن و تصویر، روی داده جدولی پیاده‌اش کردن. به این مدلشون می‌گن “datum-wise transformer”، یعنی مدلی که ردیف به ردیف (داده به داده) جدول رو بررسی می‌کنه و تفاوت‌ها رو می‌فهمه.

حالا با همین مدل تونستن حسابی بهتر از تنها روشی که قبلاً برای این کار منتشر شده بود عمل کنن: هم دقت (accuracy) مدلشون و هم امتیاز AUC (که یه معیار برای سنجیدن کیفیت مدلای تشخیص هست) رو هفت امتیاز بالا بردن. جالب‌تر اینکه یه بخش دیگه هم به مدل اضافه کردن به اسم «سازگاری با جدول» یا table-adaptation که کمک می‌کنه مدل خودش رو با هر مدل داده جدید تطبیق بده. با همین کار دقت مدل باز هم ۷ درجه دیگه بیشتر شد! یعنی عملاً رو هر جدولی بندازی، کلی بهتر از قبل داده ساختگی رو می‌گیره.

خلاصه چی شد؟ این مقاله اولین مدرک قوی رو نشون داده که تشخیص داده جدولی ساختگی، حتی تو دنیای واقعی و با جدول‌های عجیب و غریب، شدنی و قابل اعتماده! دیگه بهونه‌ای نمیمونه که بگیم داده‌های ساختگی رو نمی‌تونیم از واقعی تشخیص بدیم—اگه این مدل رو داشته باشیم!

در کل اگه تو کارایی مثل داده‌کاوی، امنیت داده یا حتی تحقیقاتی که با داده سروکار دارن فعالین، این مقاله قطعاً دید تازه و ابزار کاربردی بهتون میده. با این رویکرد پیشرفته به جنگ داده‌های ساختگی برید!

منبع: +