یه دیتاست باحال برای ترجمه متن به SQL مخصوص استخراج فرایندها!

Fall Back

اگه اهل برنامه‌نویسی یا دیتا ساینس باشی، حتماً اصطلاح “text-to-SQL” به گوشت خورده. یعنی اینکه بتونی با زبان عادی (مثلاً فارسی یا انگلیسی) سوالت رو از پایگاه داده بپرسی و یه مدل هوشمند خودش تبدیلش کنه به کد SQL. مثلاً به جای اینکه با کلی دستور عجیب غریب SQL سر و کله بزنی، راحت بگی “همه‌ی سفارش‌ها تو ماه خرداد چی بودن؟” و خودش اتومات برات بنویسه!

حالا، یه مشکلی که این وسط وجود داره اینه که بیشتر دیتاست‌هایی که برای آموزش این مدل‌ها وجود داره، خیلی جنرال یا عمومی‌ان و واسه همه‌ی حوزه‌ها جواب نمی‌دن. مخصوصاً اگه بیای سمت استخراج فرایند (Process Mining). این استخراج فرایند، یعنی اون کار تحلیلی‌ای که معمولاً رو لاگ اتفاقات سیستم‌ها انجام میدن تا روند یا مشکلات کسب‌وکار رو پیدا کنن.

تو این مقاله معرفی کردن یه دیتاست جدید به اسم “text-2-SQL-4-PM” که واقعاً کارش درسته! این دیتاست مخصوص همون حوزه استخراج فراینده و دو زبانه‌س، یعنی هم پرتغالی داره هم انگلیسی. چرا دو زبانه؟ چون خیلی از دیتاست‌ها فقط انگلیسی‌اند و برای بقیه‌ی آدمای دنیا کاربردی ندارن!

خب این دیتاست چی تو خودش داره؟

  • 1655 جمله طبیعی: از این جملات میشه واسه تمرین مدل‌های هوش مصنوعی استفاده کرد تا بتونن درخواست‌های واقعی آدما رو درک کنن. مثلا کسی می‌گه “تمام رویدادهایی که مشتری X داشته رو نشونم بده”.
  • 205 تا کد SQL: بالاخره باید جواب این جملات هم تو دیتابیس بیاد! پس به هر جمله یه کد SQL درست و حسابی وصل شده.
  • 10 تا qualifier: منظور از qualifier شرط یا مشخصاتی هست که تو جملات یا کوئریا اومده، مثلاً “بدون خطا” یا “فقط رکوردهای بعد از یک تاریخ خاص”.

ساخت این دیتاست هم حسابی وقت و انرژی برده؛ از خبره‌های حوزه خواستن جملات رو بنویسن، ترجمه حرفه‌ای کردن، کلی هم برای صحت و تگ‌گذاریش وقت گذاشتن. خلاصه خیلی پرفکت تهیه شده!

یکی دیگه از باحال‌ترین بخش‌هاش اینه که اومدن با مدل GPT-3.5 Turbo (که یکی از معروف‌ترین مدل‌های جنراتیو AI هست – منظور از جنراتیو AI سیستم‌هایی هست که می‌تونن خودشون متن یا حتی عکس جدید بسازن!) تستش کردن تا ببینن واقعاً به درد ترجمه متن به SQL می‌خوره یا نه. نتیجه هم این بوده که آره واقعاً جواب می‌ده و دیتاست خیلی به درد تمرین و تست مدل‌های مختلف می‌خوره.

در نهایت، این دیتاست حالا این امکان رو می‌ده که مدل‌های مختلف text-to-SQL رو مخصوص حوزه استخراج فرایند هم آزمایش کنی و حتی واسه مسائل دیگه تو NLP (Natural Language Processing یعنی پردازش زبان طبیعی) استفاده کنی.

خلاصه، اگه دوست داری تو بحثای دیتا، هوش مصنوعی یا استخراج فرایندها یه چیز جدید و کاردرست امتحان کنی و مدل‌هات رو واقعاً محک بزنی، دیتاست “text-2-SQL-4-PM” رو از دست نده!

منبع: +