ماجرای هیجان‌انگیز تبدیل کتاب‌های قدیمی به دیتابیس با کمک هوش مصنوعی و OCR!

Fall Back

بیا یه داستان جالب رو برات تعریف کنم! دانشمندهایی اومدن سراغ یه سری کتاب قدیمی مربوط به دانشگاه لیدن (Leiden University) که بین سال‌های ۱۵۷۵ تا ۱۸۱۵ درباره استادها و کیوریتورهای این دانشگاه نوشته شده بودن. این کتاب‌ها توی سال‌های ۱۹۸۳ تا ۱۹۸۵ منتشر شدن و کلی اطلاعات زندگینامه‌ای باحال دارن که توی هیچ دیتابیسی نمی‌تونی پیدا کنی.

حالا سوالشون این بود: چطوری میشه این همـه اطلاعات تاریخی رو که فقط به شکل عکس و متن تایپ‌شده قدیمی هست، برداشت و آورد توی دیتابیس امروزی؟! این کارو اتوماتیک کردن هم کلی دردسر داره. چون نه تنها شکل و شمایل صفحات کتاب‌ها با هم فرق دارن، بلکه کلمات و اصطلاحات قدیمی هم خودش یه چالش بزرگه.

اینجا بود که سر و کله ابزارهایی مثل OCR و هوش مصنوعی جنراتیو پیدا شد. حالا بذار توضیح بدم هرکدوم چیه:

  • OCR (Optical Character Recognition) یعنی ابزاری که عکس نوشته رو می‌خونه و تبدیلش می‌کنه به متن قابل جست‌وجو.
  • هوش مصنوعی جنراتیو (Generative AI) یعنی هوشی که خودش می‌تونه اطلاعات جدید یا ساختاریافته تولید کنه؛ مثلاً یه متن رو بخونه و خودش در قالب یه ساختار مثل JSON جمع‌بندی کنه.

چی کار کردن؟
۱. اول با OCR کل صفحات رو خوندن و متن‌ها رو از رو عکس برداشت کردن. جالبه که نرخ خطای کاراکتریشون فقط ۱.۰۸ درصد و خطای واژه‌ایشون حدود ۵.۰۶ درصد بوده! یعنی واقعا کم اشتباه کرده.
۲. بعد اومدن از هوش مصنوعی استفاده کردن تا این متن‌ها رو به طور ساختاریافته (مثلاً با فرمت JSON) از دل متن در بیارن. این هوش مصنوعی باید بفهمه چی به چیه و اطلاعات مهم رو جدا کنه.

دقت جالبی هم گرفتن: دقت استخراج اطلاعات با OCR خام حدود ۶۳ درصد بوده ولی وقتی از متن اصلاح‌شده استفاده کردن، به ۶۵ درصد رسیده. این نشون میده هوش مصنوعی حتی اگه OCR هم یه جاهایی خوب عمل نکنه، می‌تونه تا حدی خطا‌هاشو جبران کنه.

اما هنوز کار تموم نشده بود! باید این اطلاعات استخراج‌شده رو به دیتابیس اصلی وصل کنن. برا همین یه الگوریتم برای “لینک کردن رکوردها” ساختن (Record Linkage Algorithm یعنی سیستمی که رکورد جدید رو به داده درست تو دیتابیس وصل می‌کنه). این الگوریتم تونست فایل‌های JSON که با دست نشانه‌گذاری (annotate) شده بودن رو با دقت ۹۴ درصد و اون‌هایی که با OCR اتوماتیک تولید شدن رو با دقت ۸۱ درصد متصل کنه! واقعاً عددهای چشمگیریه.

در کل این پروژه به دنیای علوم انسانی دیجیتال (Digital Humanities یعنی همون استفاده از تکنولوژی برای مطالعه رویدادها، کتاب‌ها و مدارک تاریخی) کمک زیادی می‌کنه. نه تنها نشون میده چطوری میشه به شکل خودکار داده‌های تاریخی رو استخراج و سازماندهی کرد، بلکه راه‌حل‌هایی برای مشکل تفاوت چیدمان صفحات و تفاوت اصطلاحات تو اسناد قدیمی هم ارائه داده.

به طور خلاصه، این داستان یه نمونه عالیه از اینکه تکنولوژی‌های جدید چطور می‌تونن پلی بسازن بین گذشته و آینده، و اطلاعات قدیمی رو دوباره زنده کنن و وارد دنیای دیتاهای ساخت‌یافته کنن!

منبع: +