این روزا با پیشرفت هوش مصنوعیهایی که خودشون تولید محتوا میکنن (مثلاً Generative AI یعنی ساختن چیزهایی مثل تصویر، متن، و صدالبته داده)، کلی نگرانی درباره اصل بودن یا نبودن دادهها بهوجود اومده. خب همه سراغ تصاویر و متن رفتن و سعی کردن بفهمن چی واقعیه چی ساختگی، اما یه جا تقریباً کسی بهش توجه نکرد: دادههای جدولی یا همون Table Data که کلی تو بانکها، بیمارستانها، شرکتها و غیره استفاده میشه.
حالا مشکل اینجاست که دادههای جدولی خیلی متنوعان و فرمتهاشون هی فرق داره. مثلاً یه بار ممکنه جدول فروش باشه، یه بار جدول دمای شهرها، یه بار جدول کاربران یک سایت—فرمتها و ستونهاش عوض میشه. همین باعث میشه روشهای قدیمی اصلاً نتونن تشخیص بدن این جدول ساختگیه یا واقعی.
تو این مقاله اومدن دقیقاً همین چالش رو بررسی کردن: یعنی بتونیم تو هر شرایط و هر جدول عجیبی، داده ساختگی رو تشخیص بدیم.
فاز جالبش اینه که تیم پژوهشگرها یه ایده خیلی پیشرفته اجرا کردن: استفاده از ساختار Transformer که یه مدل هوش مصنوعی قدرتمنده (مثلاً Transformer مدلیه که پشت پرده ChatGPT و Bard و کلی مدل زبون دیگهست)؛ اما به جای کار روی متن و تصویر، روی داده جدولی پیادهاش کردن. به این مدلشون میگن “datum-wise transformer”، یعنی مدلی که ردیف به ردیف (داده به داده) جدول رو بررسی میکنه و تفاوتها رو میفهمه.
حالا با همین مدل تونستن حسابی بهتر از تنها روشی که قبلاً برای این کار منتشر شده بود عمل کنن: هم دقت (accuracy) مدلشون و هم امتیاز AUC (که یه معیار برای سنجیدن کیفیت مدلای تشخیص هست) رو هفت امتیاز بالا بردن. جالبتر اینکه یه بخش دیگه هم به مدل اضافه کردن به اسم «سازگاری با جدول» یا table-adaptation که کمک میکنه مدل خودش رو با هر مدل داده جدید تطبیق بده. با همین کار دقت مدل باز هم ۷ درجه دیگه بیشتر شد! یعنی عملاً رو هر جدولی بندازی، کلی بهتر از قبل داده ساختگی رو میگیره.
خلاصه چی شد؟ این مقاله اولین مدرک قوی رو نشون داده که تشخیص داده جدولی ساختگی، حتی تو دنیای واقعی و با جدولهای عجیب و غریب، شدنی و قابل اعتماده! دیگه بهونهای نمیمونه که بگیم دادههای ساختگی رو نمیتونیم از واقعی تشخیص بدیم—اگه این مدل رو داشته باشیم!
در کل اگه تو کارایی مثل دادهکاوی، امنیت داده یا حتی تحقیقاتی که با داده سروکار دارن فعالین، این مقاله قطعاً دید تازه و ابزار کاربردی بهتون میده. با این رویکرد پیشرفته به جنگ دادههای ساختگی برید!
منبع: +