خب بچهها، بذارین یه داستان عجیب از دنیای ویکیپدیا و هوش مصنوعی رو براتون تعریف کنم که واقعاً نشون میده چطور حتی یه ایده خیلی خوب میتونه برای زبونهای کوچیک به یه دردسر اساسی تبدیل شه.
قضیه از اونجا شروع شد که یه پسر آلمانی به اسم Kenneth Wehr عاشق گرینلند شد؛ اونقدری که رفت گرینلندی (زبون مردم اسکیمویی گرینلند) رو یاد گرفت و بعد شد گرداننده ویکیپدیای گرینلندی! طرف از همون اول دکمه delete رو زد روی کلی مقاله که از ۲۰ سال پیش تو ویکیپدیای گرینلندی بودن. چرا؟ چون اکثر این مقالهها، به شدت ایراد داشتن!
ماجرا این بود که تقریباً همه مطالب توسط کسایی نوشته شده بودن که اصولاً گرینلندی بلد نبودن، یا با گوگل ترنسلیت و ابزارهای ترجمه ماشینی یه چیزایی رو کپیپیست کرده بودن و نتیجهش چی بود؟ جملههای خندهدار، اشتباهات فاحش (مثلاً نوشته بودن کانادا فقط ۴۱ نفر جمعیت داره!) و حتی کلمات عجقوجق که اصلاً وجود خارجی نداشتن! این مشکل فقط مال گرینلندی نیست، برای کلی زبون دیگه تو ویکیپدیا هم پیش اومده.
اصلاً بذار روشنتر حرف بزنیم: ویکیپدیا بعد از انجیل، بزرگترین پروژه چندزبانه دنیاست، با نسخههایی به ۳۴۰ زبون مختلف و حتی ۴۰۰ زبون دیگه هم تو راه توسعهاس. تو بیشتر این نسخههای کوچیک، تعداد زیادی مقاله داریم که کاملاً با ترنسلیتور یا همون ابزار ترجمه خودکار نوشته شدن و هیچ کسی درستشون نکرده. تصور کن برای خیلی از زبونهای آفریقایی نزدیک نصف یا بیشتر مقالاتش همینطورن!
حالا مشکل کجاست؟ ببین، ابزارای هوش مصنوعی مثل Google Translate یا ChatGPT، برای یاد گرفتن هر زبون جدید، اول کلی متن اینترنتی اون زبان رو جمع میکنن. برای زبونای کمگویش، این دادهها بیشتر از ویکیپدیا جمع میشن. یعنی هرچی صفحه پُر از اشتباه و غلط بیشتر باشه، هوش مصنوعی هم اون اشتباه رو یاد میگیره و بعدش ترجمههاش میشن فاجعه؛ و بازم مردم به امید کمک از همین هوشمصنوعی، صفحههای جدید با همین اشکالات میزنن! بهش میگن چرخه زباله یا “Garbage in, garbage out” یعنی هرچی آشغال بریزی، آشغال تحویل میگیری!
تقریباً هیچ داده دقیقی نیست که بفهمیم این مشکل چقدر بزرگه، چون دیتای آموزش خیلی از این مدلها محرمانهست. ولی یه گزارش نشون داده ۵۰٪ دیتای آموزش ترجمه برای بعضی از زبونهای پرجمعیت آفریقا (مثل مالیگاسی یا یوروبا) هم از ویکیپدیا بوده! حتی برای ۲۷ زبون خود ویکیپدیا، تنها منبع آنلاین دیتای زبانی بوده.
مشکل اینه که اگه اطلاعات اشتباه باشه، یه وقت میبینی نسل جدید مردم، دیگه به زبون خودشون هم رغبتی نشون نمیده. هیچکس دوس نداره بیاد مقالهای بخونه که همش غلطه و شلخته.
تازه این وسط، عوامل هوش مصنوعی رو هم داریم که مثل “Wikipedia hijackers” میان و همه چی رو با ترنسلیتور پر میکنن. اینجا فرقشه: افراد قبلاً فقط با دیکشنری سراغ ترجمه میرفتن، الان با یه کلیک مقاله تولید میکنن! برای زبونهای آسیبپذیر که منابع آنلاین کمی دارن یا ساختارشون بازم با زبانهای دیگه فرق داره (مثلاً گرینلندی که هر واژه با کلی پیشوند-پسوند معنی پیدا میکنه و شاید یه جمله رو با یه واژه برسونه)، این وضعیت چند برابر بد میشه.
حتی خود ویکیپدیا هم یه ابزار به اسم Content Translate داره که مقالات رو خودکار ترجمه میکنه و مثلاً فرمت رو نگه میداره. ولی همینم پشتصحنهاش ترجمه ماشینی سایر شرکتهاست. نسخه انگلیسی اصلاً جلوی استفاده زیاد ازش رو گرفتن، چون ۹۵٪ مقالات ساخته شده باهاش اصلاً قابل قبول نبودن!
یکی از کاربران کانادایی ویکیپدیا به اسم Yuet Man Lee خودش اعتراف کرده چندتا مقاله رو فقط با ترجمه گوگل یا ChatGPT به زبان اینوکتیتوت (یکی از زبانای بومی کانادا) گذاشته؛ فکر میکرد شاید کسی پیدا شه ایرادات رو درست کنه، ولی خب کسی نبود و هنوز همون مقاله با کلی اشتباه مونده. Lee به این حالت میگه «غرور ویکیپدیا-بزرگا»؛ یعنی آدمای نسخههای بزرگ فکر میکنن بقیه میان مقالات اونا رو درست میکنن، ولی تو ویکیهای کوچک معمولاً خبری از مشارکت واقعی نیست.
یه مثال بامزهتر: توی Fulfulde (زبون مردم چوپان و کشاورز تو آفریقا)، گوگل ترنسلیت میگه “ژانویه” یعنی خرداد، ChatGPT میگه مرداد یا شهریور! حتی معنی “برداشت محصولات” رو هم یه بار “تب” ترجمه میکنه، یه بار “سلامتی!!” اهالی این ویکی میگن ۶۰٪ مقالات همینطوری بیکیفیت و با ترجمه ماشینی رها شدن.
تو زبان ایگبو (تو نیجریه)، لوسی ایوالا که مترجم حرفهایه، میگه دو مقاله اخیر با محتوا و ترجمه ماشینی افتضاح ساخته شده بودن و حتی بعضی کلمات انگلیسی هم توشون باقی مونده بود! اون میگه فکر میکنن با تولید سریع مقاله، به زبانشون خدمت کردن، ولی درواقع کاربرها رو فراری میدن.
نکته احتیاطی جالب: تو زبان هاوایی هم حتی ۳۵٪ واژهها تو بعضی صفحهها بیمعنی هستن. استاد دانشگاه هاوایی میگه اگه تصویر آنلاین از زبانشون همین باشه، به فرهنگ مردم ضربه بدی میزنه. چون خیلی وقتا مردم فکر میکنن ترجمهای که میبینن درسته و اون بر اساسش قضاوت میکنن.
اینجا پیام اصلی اینه: وقتی مطالب اشتباهی وارد ویکی یا فضای آنلاین یک زبان میشه، بعد هوش مصنوعی بر اساس همین اشتباهها آموزش داده میشه و کتابها و منابع بعدی اون زبان بیشتر و بیشتر افتضاح میشن. معلمها و فعالای زبانی نگران دانشآموزا هستن، چون اگه منبع درست نباشه، آینده زبان حالت خیلی بدی پیدا میکنه.
حالا چیزی هم هست که امیدوارکنندهست! مثلاً زبان Inari Saami (یه زبان کوچیک تو فنلاند) چهار دهه پیش فقط ۴ تا بچه بلدنش!! خانوادهها شروع کردن تو ویکیپدیا مقاله نوشتن، الان چند صد نفر آن زبان رو به جریان انداختن، مدرسههایی با تدریس به اون زبون درست کردن و تا الان بیش از ۶۴۰۰ مقاله با کیفیت دارن. کیفیت براشون از کمیت مهمتره. اینجاست که اینترنت و ویکی واقعاً ابزار حفظ زبان میشه.
ولی برای زبانهایی که اونقدر خوششانس نبودن، اوضاع سخته. مثلاً گرینلندی: Wehr مدتهاست دنبال افرادیه که تو گرینلند واقعاً زبان رو بلدن، ولی کسی رغبت نشون نداده! آخرش خودش درخواست بسته شدن ویکیپدیای گرینلندی رو پیش کشید و پذیرفتن؛ چون محتوای هوشمصنوعی توش زیادی چرند شده بود.
این فقط مشکل یه زبان نیست، بلکه یه زنگ خطر برای کلی زبان اصیل و باحال تو دنیاست که اگه حواسمون نباشه، فقط با ترجمه ماشینی و هوش مصنوعی، کلاً گم و محو میشن.
کل این اتفاقات یه پیام مهم داره: برای اینکه زبانهای کوچیک بمونن، باید واقعاً محتوا درست و باحوصله توشون تولید کنیم، نه اینکه هرچی ماشینه ساخت بفرستیم تو فضای آنلاین! کیفیت مهمتر از کمیت، وگرنه هوش مصنوعی و الگوریتمها هم پرتوپلا یاد میگیرن و دوباره همین اضاع پیش میاد.
در آخر، خیلی از زبانها این فرصت و انرژی رو مثل Inari Saami ندارن. داستان گرینلندی نشون میده اگر بهشون خیلی بیتوجه باشیم، شاید برای همیشه پرپر بشن. پس دفعه بعد که خواستین مقاله ویکیپدیا ترجمه کنین، لطفاً کمی بیشتر به درست بودنش فکر کنین وگرنه این چرخه ترجمههای خراب هیچوقت تموم نمیشه.
منبع: +