بیا یه داستان جالب رو برات تعریف کنم! دانشمندهایی اومدن سراغ یه سری کتاب قدیمی مربوط به دانشگاه لیدن (Leiden University) که بین سالهای ۱۵۷۵ تا ۱۸۱۵ درباره استادها و کیوریتورهای این دانشگاه نوشته شده بودن. این کتابها توی سالهای ۱۹۸۳ تا ۱۹۸۵ منتشر شدن و کلی اطلاعات زندگینامهای باحال دارن که توی هیچ دیتابیسی نمیتونی پیدا کنی.
حالا سوالشون این بود: چطوری میشه این همـه اطلاعات تاریخی رو که فقط به شکل عکس و متن تایپشده قدیمی هست، برداشت و آورد توی دیتابیس امروزی؟! این کارو اتوماتیک کردن هم کلی دردسر داره. چون نه تنها شکل و شمایل صفحات کتابها با هم فرق دارن، بلکه کلمات و اصطلاحات قدیمی هم خودش یه چالش بزرگه.
اینجا بود که سر و کله ابزارهایی مثل OCR و هوش مصنوعی جنراتیو پیدا شد. حالا بذار توضیح بدم هرکدوم چیه:
- OCR (Optical Character Recognition) یعنی ابزاری که عکس نوشته رو میخونه و تبدیلش میکنه به متن قابل جستوجو.
- هوش مصنوعی جنراتیو (Generative AI) یعنی هوشی که خودش میتونه اطلاعات جدید یا ساختاریافته تولید کنه؛ مثلاً یه متن رو بخونه و خودش در قالب یه ساختار مثل JSON جمعبندی کنه.
چی کار کردن؟
۱. اول با OCR کل صفحات رو خوندن و متنها رو از رو عکس برداشت کردن. جالبه که نرخ خطای کاراکتریشون فقط ۱.۰۸ درصد و خطای واژهایشون حدود ۵.۰۶ درصد بوده! یعنی واقعا کم اشتباه کرده.
۲. بعد اومدن از هوش مصنوعی استفاده کردن تا این متنها رو به طور ساختاریافته (مثلاً با فرمت JSON) از دل متن در بیارن. این هوش مصنوعی باید بفهمه چی به چیه و اطلاعات مهم رو جدا کنه.
دقت جالبی هم گرفتن: دقت استخراج اطلاعات با OCR خام حدود ۶۳ درصد بوده ولی وقتی از متن اصلاحشده استفاده کردن، به ۶۵ درصد رسیده. این نشون میده هوش مصنوعی حتی اگه OCR هم یه جاهایی خوب عمل نکنه، میتونه تا حدی خطاهاشو جبران کنه.
اما هنوز کار تموم نشده بود! باید این اطلاعات استخراجشده رو به دیتابیس اصلی وصل کنن. برا همین یه الگوریتم برای “لینک کردن رکوردها” ساختن (Record Linkage Algorithm یعنی سیستمی که رکورد جدید رو به داده درست تو دیتابیس وصل میکنه). این الگوریتم تونست فایلهای JSON که با دست نشانهگذاری (annotate) شده بودن رو با دقت ۹۴ درصد و اونهایی که با OCR اتوماتیک تولید شدن رو با دقت ۸۱ درصد متصل کنه! واقعاً عددهای چشمگیریه.
در کل این پروژه به دنیای علوم انسانی دیجیتال (Digital Humanities یعنی همون استفاده از تکنولوژی برای مطالعه رویدادها، کتابها و مدارک تاریخی) کمک زیادی میکنه. نه تنها نشون میده چطوری میشه به شکل خودکار دادههای تاریخی رو استخراج و سازماندهی کرد، بلکه راهحلهایی برای مشکل تفاوت چیدمان صفحات و تفاوت اصطلاحات تو اسناد قدیمی هم ارائه داده.
به طور خلاصه، این داستان یه نمونه عالیه از اینکه تکنولوژیهای جدید چطور میتونن پلی بسازن بین گذشته و آینده، و اطلاعات قدیمی رو دوباره زنده کنن و وارد دنیای دیتاهای ساختیافته کنن!
منبع: +