اگه یه روزی بهت بگم تو قرن هفدهم و هجدهم میلادی، آدمها تو ویرجینیا زمین میخریدن و یه سری سند میدادن که توش به جای داشتن نقشه، فقط با کلی توضیح و شرح و بسط میگفتن زمین کجاست، باور میکنی؟ واقعاً اون زمان هیچکس GPS یا حتی نقشه درست و حسابی نداشت. توی این مدل سندها، معمولاً مینویسن: «از کنار درخت بلوط قدیمی تا رودخونه، بعد سه قدم برو شمال…» خلاصه تشخیص اینکه این زمین دقیقاً کجاست، امروز واقعاً کار سختیه!
تو این پروژه باحال، یه تیم اومدن و سعی کردن با کمک مدلهای زبانی بزرگ یا همون Large Language Models — که خلاصهشون میشه LLM و منظور همون هوش مصنوعیهای امروزی مثل ChatGPT و رفقاشه — بفهمن واقعاً این سندهای قدیمی و پیچیده رو میشه به مکان واقعی روی نقشه ترجمه کرد یا نه.
یه مجموعه بزرگ از این اسناد تاریخ ساختن، دقیقاً ۵۴۷۱ تا از این خلاصههای سند زمین ویرجینیا که بین سالهای ۱۶۹۵ تا ۱۷۳۲ نوشته شدن. برای اینکه بدونن کدوم هوش مصنوعی بهتره، ۴۳ تا از این اسناد رو خیلی با دقت توسط کارشناسها بررسی کردن و بهشون میگن «بنچمارک» — یعنی مواردی که مثل خطکش برای سنجش بقیه استفاده میشن.
حالا چی کار کردن؟ شش مدل هوش مصنوعی از OpenAI که خودشون سه دسته بودن (بر اساس تکنولوژیهای مختلف: مثلا o-series، GPT-4 مثل همین مدلی که خیلیها استفاده میکنن، و GPT-3.5 که مدل قدیمیتره)، تست شدن. دو مدل روش تست هم امتحان کردن: یکی اینکه هوش مصنوعی خودش مستقیم بگه مختصات جغرافیایی (یعنی طول و عرض جغرافیایی) زمین کجاست؛ یکی هم با کمک API های خارجی که خودش بهش میگن Tool-augmented chain-of-thought، یعنی هوش مصنوعی با کمک گرفتن از ابزارهای خارجی مثل سرویسهای پیدا کردن مکان، سعی کنه آدرس رو دقیقتر بده.
حالا واسه اینکه معلوم شه واقعاً مدلها چقدر خوبن، اومدن نتایجشون رو با چند روش دیگه که آدمها یا نرمافزارها استفاده میکردن مقایسه کردن. مثلاً با روش آنالیز نقشه که یه کارشناس GIS انجام میده (GIS analyst یعنی کسی که با سیستم اطلاعات جغرافیایی کار میکنه و کارش تخصصیه)، با Stanford NER که یه جور نرمافزار شناسایی مکان در متنه، و یه ابزار دیگه به اسم Mordecai-3. حتی یه روش «سریع و ساده» هم گذاشتن که فقط مختصات مرکز شهر رو میزاره، یعنی county-centroid heuristic.
نتایج واقعاً جالب شدن! از همه بهتر، مدل o3-2025-04-16 بود که میانگین اشتباهش تو مکانیابی فقط ۲۳ کیلومتر بود (وسطش هم ۱۴ کیلومتر). مقایسه کن که مدلهای متوسطتر حدود ۳۷.۴ کیلومتر و ضعیفترین مدل ۵۰.۳ کیلومتر خطا داشتن! یعنی این مدل جدید ۳۷ تا ۵۰ درصد بهتر از بقیه عمل کرده. تازه اگه پنج بار خروجی مدل رو بگیری و باهم ترکیب کنی (که بهش میگن پنج-بار-انسمبل)، میانگین خطا به ۱۹ کیلومتر میرسه و تقریباً با هزینه خیلی ناچیز (۲۰ سنت برای هر سند). این ترکیبی، حتی نسبت به مدل متوسط ۴۸.۶٪ بهتر شده بود.
یه آزمایش باحال دیگه هم داشتن: اسم فردی که زمین رو گرفته بود (patentee name) رو حذف کردن تا ببینن مدل بدون داشتن اطلاعات احتمالی از قبل، میتونه کارش رو خوب انجام بده یا نه. خب دیدن دقیقاً عملکردش حدود ۹ درصد ضعیفتر میشه. یعنی مدل بیشتر داره از توضیحات نشانهها و همسایگیها استفاده میکنه تا حفظ کردن اطلاعات.
از لحاظ اقتصادی هم مدل gpt-4o-2024-08-06 فقط با میانگین خطای ۲۸ کیلومتر و با هزینه یک دلار و یک سنت برای هر هزار سند، عملکرد خیلی باصرفهای داشته. خلاصه، استفاده از ابزارهای جغرافیایی خارجی یا API های موقعیتیابی اینجا مزیت خاصی نداشت و حتی هوش مصنوعی خودش بهتنهایی بهتر جواب داد!
کلاً این تحقیق نشون داد که LLMها یا همین مدلهای زبانی بزرگ واقعاً میتونن تو پیدا کردن موقعیت زمینهای تاریخی سرعت و دقت خوبی داشته باشن، اونم با هزینه خیلی کم. پس آیندهی تاریخنویسی و بررسی اسناد قدیمی هم حسابی با تکنولوژی گره خورده!
منبع: +