اگه اهل برنامهنویسی یا دیتا ساینس باشی، حتماً اصطلاح “text-to-SQL” به گوشت خورده. یعنی اینکه بتونی با زبان عادی (مثلاً فارسی یا انگلیسی) سوالت رو از پایگاه داده بپرسی و یه مدل هوشمند خودش تبدیلش کنه به کد SQL. مثلاً به جای اینکه با کلی دستور عجیب غریب SQL سر و کله بزنی، راحت بگی “همهی سفارشها تو ماه خرداد چی بودن؟” و خودش اتومات برات بنویسه!
حالا، یه مشکلی که این وسط وجود داره اینه که بیشتر دیتاستهایی که برای آموزش این مدلها وجود داره، خیلی جنرال یا عمومیان و واسه همهی حوزهها جواب نمیدن. مخصوصاً اگه بیای سمت استخراج فرایند (Process Mining). این استخراج فرایند، یعنی اون کار تحلیلیای که معمولاً رو لاگ اتفاقات سیستمها انجام میدن تا روند یا مشکلات کسبوکار رو پیدا کنن.
تو این مقاله معرفی کردن یه دیتاست جدید به اسم “text-2-SQL-4-PM” که واقعاً کارش درسته! این دیتاست مخصوص همون حوزه استخراج فراینده و دو زبانهس، یعنی هم پرتغالی داره هم انگلیسی. چرا دو زبانه؟ چون خیلی از دیتاستها فقط انگلیسیاند و برای بقیهی آدمای دنیا کاربردی ندارن!
خب این دیتاست چی تو خودش داره؟
- 1655 جمله طبیعی: از این جملات میشه واسه تمرین مدلهای هوش مصنوعی استفاده کرد تا بتونن درخواستهای واقعی آدما رو درک کنن. مثلا کسی میگه “تمام رویدادهایی که مشتری X داشته رو نشونم بده”.
- 205 تا کد SQL: بالاخره باید جواب این جملات هم تو دیتابیس بیاد! پس به هر جمله یه کد SQL درست و حسابی وصل شده.
- 10 تا qualifier: منظور از qualifier شرط یا مشخصاتی هست که تو جملات یا کوئریا اومده، مثلاً “بدون خطا” یا “فقط رکوردهای بعد از یک تاریخ خاص”.
ساخت این دیتاست هم حسابی وقت و انرژی برده؛ از خبرههای حوزه خواستن جملات رو بنویسن، ترجمه حرفهای کردن، کلی هم برای صحت و تگگذاریش وقت گذاشتن. خلاصه خیلی پرفکت تهیه شده!
یکی دیگه از باحالترین بخشهاش اینه که اومدن با مدل GPT-3.5 Turbo (که یکی از معروفترین مدلهای جنراتیو AI هست – منظور از جنراتیو AI سیستمهایی هست که میتونن خودشون متن یا حتی عکس جدید بسازن!) تستش کردن تا ببینن واقعاً به درد ترجمه متن به SQL میخوره یا نه. نتیجه هم این بوده که آره واقعاً جواب میده و دیتاست خیلی به درد تمرین و تست مدلهای مختلف میخوره.
در نهایت، این دیتاست حالا این امکان رو میده که مدلهای مختلف text-to-SQL رو مخصوص حوزه استخراج فرایند هم آزمایش کنی و حتی واسه مسائل دیگه تو NLP (Natural Language Processing یعنی پردازش زبان طبیعی) استفاده کنی.
خلاصه، اگه دوست داری تو بحثای دیتا، هوش مصنوعی یا استخراج فرایندها یه چیز جدید و کاردرست امتحان کنی و مدلهات رو واقعاً محک بزنی، دیتاست “text-2-SQL-4-PM” رو از دست نده!
منبع: +