این روزها با پیشرفت عجیب تکنولوژی، همه دنبال راههایی هستن که اطلاعات روی کاغذ رو سریع و دقیق بخونن و استخراج کنن، مخصوصاً تو صنعت که کلی برگه و فرم داریم! حالا یه مشکلی که خیلی پیش میاد اینه که اطلاعاتی که باید روی این برگههای آماده دوباره چاپ بشه (یعنی Secondary Printing – همون پرینت دوم که اطلاعات اضافهتر میاد رو یک فرم قبلاً چاپشده)، معمولاً قشنگ و مرتب کنار هم قرار نمیگیرن. بعضی وقتا متنها از جاشون در میرن، یا روی هم میوفتن، یا با جدولهای پسزمینه قاطی میشن. خب همین باعث میشه ابزارای OCR (یعنی Optical Character Recognition، سیستمی که عکس متنی میگیره و متنش رو استخراج میکنه) به مشکل بخورن و نتونن درست متن رو بخونن.
یعنی تصور کن یه عالمه قبض و رسید داری که یه سری اطلاعات مهم روشون دوباره چاپ شده، بعد متنها یه جاهایی رفته روی خط جدول یا قاطی متنهای دیگه شده! کلی اعصاب خوردی میاره، مخصوصاً اگه بخوای با OCR همه رو خودکار بخونی.
حالا این مقاله دقیقاً میاد همین داستان رو حل کنه. نویسندهها یه روش پیشپردازش باحال پیشنهاد دادن که مخصوص اسناد پرینت دوم هست و مشکل اصلیش هم همین بهمریختگی و همپوشانی (Overlap) متنهاست.
چی کار کردن؟
اومدن یه شبکه عصبی طراحی کردن به اسم TORNet. TORNet یه مدل هوش مصنوعی هست که عکسهایی که متن روشون قاطی شده یا متنها روی هم افتادن رو بازسازی میکنه تا متنها دوباره واضح بشن (بازسازی تصویر یعنی همون Image Restoration). مثلاً اینجوری که انگار اول متن و پسزمینه دوباره جدا میشه و هر دوشون رو شفافتر نشون میده.
توی آزمایشهاشون هم TORNet تونسته بهتر از کلی مدل معروف دیگه عمل کنه! مثلاً توی بازسازی متنهای پیشزمینه (foreground)، به طور میانگین PSNR رو حدود 0.17 دسیبل بهتر کرده و تو متنهای پسزمینه (background) حدود 0.12 دسیبل. (PSNR یعنی همون «نسبت سیگنال به نویز پیک»، یه معیاریه که نشون میده تصویر بازسازیشده چقدر به تصویر اصلی نزدیکه؛ هرچی بزرگتر باشه، بهتره).
ولی کار همینجا تموم نمیشه! هنوز ممکِنه بعضی فیلدهای مهم (مثلاً اسم، شماره، مبلغ و غیره – همون Key Fields) بعد از بازسازی دقیق سر جاشون نباشن یا کمی جابجا شده باشن. بنابراین یه روش دیگه هم اضافه کردن به اسم Key-field Alignment که بیاد دقیقاً پیدا کنه این فیلدهای مهم تو تصویر کجا هستن و سر جاشون تو فرم بذاره. اینجوری ساختار فرم هم اصلاح میشه و همهچی مرتب سر جاش قرار میگیره.
نتیجه این همه زحمت چی بوده؟ با همین پیشپردازش TORNet و روش هماهنگسازی فیلدها، دقت سیستم در خوندن و مطابقت دادن فیلدها نسبت به مدلای تجاری فعلی OCR، تا ۲۳٪ تو شناسایی و ۳۱٪ تو تطابق فیلدها بهتر شده! یعنی هرچی سند داغون و دربوداغون با متنهای قاطی و جابجا باشه، دیگه خیلی راحتتر و دقیقتر میشه باهاشون کار کرد.
خلاصه اگه تو محیطهای صنعتی و اداری با کلی برگه و فرم سر و کار داری که اطلاعات روشون جفتوجور نیست یا متنها رو هم چاپ شدن، این راهکار TORNet و Key-field Alignment واقعاً ناجیته. کارشونو درست انجام میدن و یه نفس راحت میکشی!
منبع: +