راهکار باحال برای بازسازی متن‌های قاطی‌پاطی توی اسناد پرینت دوم

این روزها با پیشرفت عجیب تکنولوژی، همه دنبال راه‌هایی هستن که اطلاعات روی کاغذ رو سریع و دقیق بخونن و استخراج کنن، مخصوصاً تو صنعت که کلی برگه و فرم داریم! حالا یه مشکلی که خیلی پیش میاد اینه که اطلاعاتی که باید روی این برگه‌های آماده دوباره چاپ بشه (یعنی Secondary Printing – همون پرینت دوم که اطلاعات اضافه‌تر میاد رو یک فرم قبلاً چاپ‌شده)، معمولاً قشنگ و مرتب کنار هم قرار نمی‌گیرن. بعضی وقتا متن‌ها از جاشون در میرن، یا روی هم میوفتن، یا با جدول‌های پس‌زمینه قاطی میشن. خب همین باعث میشه ابزارای OCR (یعنی Optical Character Recognition، سیستمی که عکس متنی می‌گیره و متنش رو استخراج می‌کنه) به مشکل بخورن و نتونن درست متن رو بخونن.

یعنی تصور کن یه عالمه قبض و رسید داری که یه سری اطلاعات مهم روشون دوباره چاپ شده، بعد متن‌ها یه جاهایی رفته روی خط جدول یا قاطی متن‌های دیگه شده! کلی اعصاب خوردی میاره، مخصوصاً اگه بخوای با OCR همه رو خودکار بخونی.

حالا این مقاله دقیقاً میاد همین داستان رو حل کنه. نویسنده‌ها یه روش پیش‌پردازش باحال پیشنهاد دادن که مخصوص اسناد پرینت دوم هست و مشکل اصلی‌ش هم همین بهم‌ریختگی و هم‌پوشانی (Overlap) متن‌هاست.

چی کار کردن؟
اومدن یه شبکه عصبی طراحی کردن به اسم TORNet. TORNet یه مدل هوش مصنوعی هست که عکس‌هایی که متن روشون قاطی شده یا متن‌ها روی هم افتادن رو بازسازی می‌کنه تا متن‌ها دوباره واضح بشن (بازسازی تصویر یعنی همون Image Restoration). مثلاً اینجوری که انگار اول متن و پس‌زمینه دوباره جدا میشه و هر دوشون رو شفاف‌تر نشون میده.

توی آزمایش‌هاشون هم TORNet تونسته بهتر از کلی مدل معروف دیگه عمل کنه! مثلاً توی بازسازی متن‌های پیش‌زمینه (foreground)، به طور میانگین PSNR رو حدود 0.17 دسی‌بل بهتر کرده و تو متن‌های پس‌زمینه (background) حدود 0.12 دسی‌بل. (PSNR یعنی همون «نسبت سیگنال به نویز پیک»، یه معیاریه که نشون میده تصویر بازسازی‌شده چقدر به تصویر اصلی نزدیکه؛ هرچی بزرگ‌تر باشه، بهتره).

ولی کار همین‌جا تموم نمیشه! هنوز ممکِنه بعضی فیلدهای مهم (مثلاً اسم، شماره، مبلغ و غیره – همون Key Fields) بعد از بازسازی دقیق سر جاشون نباشن یا کمی جابجا شده باشن. بنابراین یه روش دیگه هم اضافه کردن به اسم Key-field Alignment که بیاد دقیقاً پیدا کنه این فیلدهای مهم تو تصویر کجا هستن و سر جاشون تو فرم بذاره. اینجوری ساختار فرم هم اصلاح میشه و همه‌چی مرتب سر جاش قرار می‌گیره.

نتیجه این همه زحمت چی بوده؟ با همین پیش‌پردازش TORNet و روش هماهنگ‌سازی فیلدها، دقت سیستم در خوندن و مطابقت دادن فیلدها نسبت به مدلای تجاری فعلی OCR، تا ۲۳٪ تو شناسایی و ۳۱٪ تو تطابق فیلدها بهتر شده! یعنی هرچی سند داغون و درب‌وداغون با متن‌های قاطی و جابجا باشه، دیگه خیلی راحت‌تر و دقیق‌تر میشه باهاشون کار کرد.

خلاصه اگه تو محیط‌های صنعتی و اداری با کلی برگه و فرم سر و کار داری که اطلاعات روشون جفت‌وجور نیست یا متن‌ها رو هم چاپ شدن، این راهکار TORNet و Key-field Alignment واقعاً ناجیته. کارشونو درست انجام میدن و یه نفس راحت می‌کشی!

منبع: +