چطور هوش مصنوعی و ویکی‌پدیا دارن باعث نابودی زبون‌های آسیب‌پذیر میشن؟

خب بچه‌ها، بذارین یه داستان عجیب از دنیای ویکی‌پدیا و هوش مصنوعی رو براتون تعریف کنم که واقعاً نشون می‌ده چطور حتی یه ایده خیلی خوب می‌تونه برای زبون‌های کوچیک به یه دردسر اساسی تبدیل شه.

قضیه از اونجا شروع شد که یه پسر آلمانی به اسم Kenneth Wehr عاشق گرینلند شد؛ اون‌قدری که رفت گرینلندی (زبون مردم اسکیمویی گرینلند) رو یاد گرفت و بعد شد گرداننده ویکی‌پدیای گرینلندی! طرف از همون اول دکمه delete رو زد روی کلی مقاله که از ۲۰ سال پیش تو ویکی‌پدیای گرینلندی بودن. چرا؟ چون اکثر این مقاله‌ها، به شدت ایراد داشتن!

ماجرا این بود که تقریباً همه مطالب توسط کسایی نوشته شده بودن که اصولاً گرینلندی بلد نبودن، یا با گوگل ترنسلیت و ابزارهای ترجمه ماشینی یه چیزایی رو کپی‌پیست کرده بودن و نتیجه‌ش چی بود؟ جمله‌های خنده‌دار، اشتباهات فاحش (مثلاً نوشته بودن کانادا فقط ۴۱ نفر جمعیت داره!) و حتی کلمات عجق‌وجق که اصلاً وجود خارجی نداشتن! این مشکل فقط مال گرینلندی نیست، برای کلی زبون دیگه تو ویکی‌پدیا هم پیش اومده.

اصلاً بذار روشن‌تر حرف بزنیم: ویکی‌پدیا بعد از انجیل، بزرگ‌ترین پروژه چندزبانه دنیاست، با نسخه‌هایی به ۳۴۰ زبون مختلف و حتی ۴۰۰ زبون دیگه هم تو راه توسعه‌اس. تو بیشتر این نسخه‌های کوچیک، تعداد زیادی مقاله داریم که کاملاً با ترنسلیتور یا همون ابزار ترجمه خودکار نوشته شدن و هیچ کسی درستشون نکرده. تصور کن برای خیلی از زبون‌های آفریقایی نزدیک نصف یا بیشتر مقالاتش همینطورن!

حالا مشکل کجاست؟ ببین، ابزارای هوش مصنوعی مثل Google Translate یا ChatGPT، برای یاد گرفتن هر زبون جدید، اول کلی متن اینترنتی اون زبان رو جمع می‌کنن. برای زبونای کم‌گویش، این داده‌ها بیشتر از ویکی‌پدیا جمع میشن. یعنی هرچی صفحه پُر از اشتباه و غلط بیشتر باشه، هوش مصنوعی هم اون اشتباه رو یاد می‌گیره و بعدش ترجمه‌هاش میشن فاجعه؛ و بازم مردم به امید کمک از همین هوش‌مصنوعی، صفحه‌های جدید با همین اشکالات می‌زنن! بهش می‌گن چرخه زباله یا “Garbage in, garbage out” یعنی هرچی آشغال بریزی، آشغال تحویل می‌گیری!

تقریباً هیچ داده دقیقی نیست که بفهمیم این مشکل چقدر بزرگه، چون دیتای آموزش خیلی از این مدل‌ها محرمانه‌ست. ولی یه گزارش نشون داده ۵۰٪ دیتای آموزش ترجمه برای بعضی از زبون‌های پرجمعیت آفریقا (مثل مالیگاسی یا یوروبا) هم از ویکی‌پدیا بوده! حتی برای ۲۷ زبون خود ویکی‌پدیا، تنها منبع آنلاین دیتای زبانی بوده.

مشکل اینه که اگه اطلاعات اشتباه باشه، یه وقت می‌بینی نسل جدید مردم، دیگه به زبون خودشون هم رغبتی نشون نمی‌ده. هیچکس دوس نداره بیاد مقاله‌ای بخونه که همش غلطه و شلخته.

تازه این وسط، عوامل هوش مصنوعی رو هم داریم که مثل “Wikipedia hijackers” میان و همه چی رو با ترنسلیتور پر می‌کنن. اینجا فرقشه: افراد قبلاً فقط با دیکشنری سراغ ترجمه می‌رفتن، الان با یه کلیک مقاله تولید می‌کنن! برای زبون‌های آسیب‌پذیر که منابع آنلاین کمی دارن یا ساختارشون بازم با زبان‌های دیگه فرق داره (مثلاً گرینلندی که هر واژه با کلی پیشوند-پسوند معنی پیدا می‌کنه و شاید یه جمله رو با یه واژه برسونه)، این وضعیت چند برابر بد میشه.

حتی خود ویکی‌پدیا هم یه ابزار به اسم Content Translate داره که مقالات رو خودکار ترجمه می‌کنه و مثلاً فرمت رو نگه می‌داره. ولی همینم پشت‌صحنه‌اش ترجمه ماشینی سایر شرکت‌هاست. نسخه انگلیسی اصلاً جلوی استفاده زیاد ازش رو گرفتن، چون ۹۵٪ مقالات ساخته شده باهاش اصلاً قابل قبول نبودن!

یکی از کاربران کانادایی ویکی‌پدیا به اسم Yuet Man Lee خودش اعتراف کرده چندتا مقاله رو فقط با ترجمه گوگل یا ChatGPT به زبان اینوکتیتوت (یکی از زبانای بومی کانادا) گذاشته؛ فکر می‌کرد شاید کسی پیدا شه ایرادات رو درست کنه، ولی خب کسی نبود و هنوز همون مقاله با کلی اشتباه مونده. Lee به این حالت می‌گه «غرور ویکی‌پدیا-بزرگا»؛ یعنی آدمای نسخه‌های بزرگ فکر می‌کنن بقیه میان مقالات اونا رو درست می‌کنن، ولی تو ویکی‌های کوچک معمولاً خبری از مشارکت واقعی نیست.

یه مثال بامزه‌تر: توی Fulfulde (زبون مردم چوپان و کشاورز تو آفریقا)، گوگل ترنسلیت میگه “ژانویه” یعنی خرداد، ChatGPT میگه مرداد یا شهریور! حتی معنی “برداشت محصولات” رو هم یه بار “تب” ترجمه می‌کنه، یه بار “سلامتی!!” اهالی این ویکی می‌گن ۶۰٪ مقالات همینطوری بی‌کیفیت و با ترجمه ماشینی رها شدن.

تو زبان ایگبو (تو نیجریه)، لوسی ایوالا که مترجم حرفه‌ایه، می‌گه دو مقاله اخیر با محتوا و ترجمه ماشینی افتضاح ساخته شده بودن و حتی بعضی کلمات انگلیسی هم توشون باقی مونده بود! اون می‌گه فکر میکنن با تولید سریع مقاله، به زبانشون خدمت کردن، ولی درواقع کاربرها رو فراری میدن.

نکته احتیاطی جالب: تو زبان هاوایی هم حتی ۳۵٪ واژه‌ها تو بعضی صفحه‌ها بی‌معنی هستن. استاد دانشگاه هاوایی می‌گه اگه تصویر آنلاین از زبانشون همین باشه، به فرهنگ مردم ضربه بدی می‌زنه. چون خیلی وقتا مردم فکر می‌کنن ترجمه‌ای که می‌بینن درسته و اون بر اساسش قضاوت می‌کنن.

اینجا پیام اصلی اینه: وقتی مطالب اشتباهی وارد ویکی یا فضای آنلاین یک زبان میشه، بعد هوش مصنوعی بر اساس همین اشتباه‌ها آموزش داده میشه و کتاب‌ها و منابع بعدی اون زبان بیشتر و بیشتر افتضاح میشن. معلم‌ها و فعالای زبانی نگران دانش‌آموزا هستن، چون اگه منبع درست نباشه، آینده زبان حالت خیلی بدی پیدا می‌کنه.

حالا چیزی هم هست که امیدوارکننده‌ست! مثلاً زبان Inari Saami (یه زبان کوچیک تو فنلاند) چهار دهه پیش فقط ۴ تا بچه بلدنش!! خانواده‌ها شروع کردن تو ویکی‌پدیا مقاله نوشتن، الان چند صد نفر آن زبان رو به جریان انداختن، مدرسه‌هایی با تدریس به اون زبون درست کردن و تا الان بیش از ۶۴۰۰ مقاله با کیفیت دارن. کیفیت براشون از کمیت مهم‌تره. اینجاست که اینترنت و ویکی واقعاً ابزار حفظ زبان میشه.

ولی برای زبان‌هایی که اون‌قدر خوش‌شانس نبودن، اوضاع سخته. مثلاً گرینلندی: Wehr مدت‌هاست دنبال افرادیه که تو گرینلند واقعاً زبان رو بلدن، ولی کسی رغبت نشون نداده! آخرش خودش درخواست بسته شدن ویکی‌پدیای گرینلندی رو پیش کشید و پذیرفتن؛ چون محتوای هوش‌مصنوعی توش زیادی چرند شده بود.
این فقط مشکل یه زبان نیست، بلکه یه زنگ خطر برای کلی زبان اصیل و باحال تو دنیاست که اگه حواسمون نباشه، فقط با ترجمه ماشینی و هوش مصنوعی، کلاً گم و محو میشن.

کل این اتفاقات یه پیام مهم داره: برای اینکه زبان‌های کوچیک بمونن، باید واقعاً محتوا درست و باحوصله توشون تولید کنیم، نه اینکه هرچی ماشینه ساخت بفرستیم تو فضای آنلاین! کیفیت مهم‌تر از کمیت، وگرنه هوش مصنوعی و الگوریتم‌ها هم پرت‌وپلا یاد می‌گیرن و دوباره همین اضاع پیش میاد.

در آخر، خیلی از زبان‌ها این فرصت و انرژی رو مثل Inari Saami ندارن. داستان گرینلندی نشون می‌ده اگر بهشون خیلی بی‌توجه باشیم، شاید برای همیشه پرپر بشن. پس دفعه بعد که خواستین مقاله ویکی‌پدیا ترجمه کنین، لطفاً کمی بیشتر به درست بودنش فکر کنین وگرنه این چرخه ترجمه‌های خراب هیچ‌وقت تموم نمیشه.

منبع: +