هوش مصنوعی و پیدا کردن جای زمین‌های ویرجینیای قدیم: داستان رقابت مدل‌های زبانی!

اگه یه روزی بهت بگم تو قرن هفدهم و هجدهم میلادی، آدم‌ها تو ویرجینیا زمین می‌خریدن و یه سری سند می‌دادن که توش به جای داشتن نقشه، فقط با کلی توضیح و شرح و بسط‌ می‌گفتن زمین کجاست، باور می‌کنی؟ واقعاً اون زمان هیچ‌کس GPS یا حتی نقشه درست و حسابی نداشت. توی این مدل سندها، معمولاً می‌نویسن: «از کنار درخت بلوط قدیمی تا رودخونه، بعد سه قدم برو شمال…» خلاصه تشخیص اینکه این زمین دقیقاً کجاست، امروز واقعاً کار سختیه!

تو این پروژه باحال، یه تیم اومدن و سعی کردن با کمک مدل‌های زبانی بزرگ یا همون Large Language Models — که خلاصه‌شون میشه LLM و منظور همون هوش مصنوعی‌های امروزی مثل ChatGPT و رفقاشه — بفهمن واقعاً این سندهای قدیمی و پیچیده رو میشه به مکان واقعی روی نقشه ترجمه کرد یا نه.

یه مجموعه بزرگ از این اسناد تاریخ ساختن، دقیقاً ۵۴۷۱ تا از این خلاصه‌های سند زمین ویرجینیا که بین سال‌های ۱۶۹۵ تا ۱۷۳۲ نوشته شدن. برای اینکه بدونن کدوم هوش مصنوعی بهتره، ۴۳ تا از این اسناد رو خیلی با دقت توسط کارشناس‌ها بررسی کردن و بهشون می‌گن «بنچمارک» — یعنی مواردی که مثل خط‌کش برای سنجش بقیه استفاده میشن.

حالا چی کار کردن؟ شش مدل هوش مصنوعی از OpenAI که خودشون سه دسته بودن (بر اساس تکنولوژی‌های مختلف: مثلا o-series، GPT-4 مثل همین مدلی که خیلی‌ها استفاده می‌کنن، و GPT-3.5 که مدل قدیمی‌تره)، تست شدن. دو مدل روش تست هم امتحان کردن: یکی اینکه هوش مصنوعی خودش مستقیم بگه مختصات جغرافیایی (یعنی طول و عرض جغرافیایی) زمین کجاست؛ یکی هم با کمک API های خارجی که خودش بهش میگن Tool-augmented chain-of-thought، یعنی هوش مصنوعی با کمک گرفتن از ابزارهای خارجی مثل سرویس‌های پیدا کردن مکان، سعی کنه آدرس رو دقیق‌تر بده.

حالا واسه اینکه معلوم شه واقعاً مدل‌ها چقدر خوبن، اومدن نتایجشون رو با چند روش دیگه که آدم‌ها یا نرم‌افزارها استفاده می‌کردن مقایسه کردن. مثلاً با روش آنالیز نقشه که یه کارشناس GIS انجام میده (GIS analyst یعنی کسی که با سیستم اطلاعات جغرافیایی کار می‌کنه و کارش تخصصیه)، با Stanford NER که یه جور نرم‌افزار شناسایی مکان در متنه، و یه ابزار دیگه به اسم Mordecai-3. حتی یه روش «سریع و ساده» هم گذاشتن که فقط مختصات مرکز شهر رو میزاره، یعنی county-centroid heuristic.

نتایج واقعاً جالب شدن! از همه بهتر، مدل o3-2025-04-16 بود که میانگین اشتباهش تو مکان‌یابی فقط ۲۳ کیلومتر بود (وسطش هم ۱۴ کیلومتر). مقایسه کن که مدل‌های متوسط‌تر حدود ۳۷.۴ کیلومتر و ضعیف‌ترین مدل ۵۰.۳ کیلومتر خطا داشتن! یعنی این مدل جدید ۳۷ تا ۵۰ درصد بهتر از بقیه عمل کرده. تازه اگه پنج بار خروجی مدل رو بگیری و باهم ترکیب کنی (که بهش می‌گن پنج-بار-انسمبل)، میانگین خطا به ۱۹ کیلومتر می‌رسه و تقریباً با هزینه خیلی ناچیز (۲۰ سنت برای هر سند). این ترکیبی، حتی نسبت به مدل متوسط ۴۸.۶٪ بهتر شده بود.

یه آزمایش باحال دیگه هم داشتن: اسم فردی که زمین رو گرفته بود (patentee name) رو حذف کردن تا ببینن مدل بدون داشتن اطلاعات احتمالی از قبل، می‌تونه کارش رو خوب انجام بده یا نه. خب دیدن دقیقاً عملکردش حدود ۹ درصد ضعیف‌تر میشه. یعنی مدل بیشتر داره از توضیحات نشانه‌ها و همسایگی‌ها استفاده می‌کنه تا حفظ کردن اطلاعات.

از لحاظ اقتصادی هم مدل gpt-4o-2024-08-06 فقط با میانگین خطای ۲۸ کیلومتر و با هزینه یک دلار و یک سنت برای هر هزار سند، عملکرد خیلی باصرفه‌ای داشته. خلاصه، استفاده از ابزارهای جغرافیایی خارجی یا API های موقعیت‌یابی اینجا مزیت خاصی نداشت و حتی هوش مصنوعی خودش به‌تنهایی بهتر جواب داد!

کلاً این تحقیق نشون داد که LLMها یا همین مدل‌های زبانی بزرگ واقعاً می‌تونن تو پیدا کردن موقعیت زمین‌های تاریخی سرعت و دقت خوبی داشته باشن، اونم با هزینه خیلی کم. پس آینده‌ی تاریخ‌نویسی و بررسی اسناد قدیمی هم حسابی با تکنولوژی گره خورده!

منبع: +