اگه تا حالا برات سوال شده که دقیقاً کدوم گروه سنی بیشتر تو کامنتها غوغا به پا میکنن و کدومها بیشتر دنبال بحثای حاشیهای و سمی هستن، این مقاله قراره یه عالمه داده خفن بهت بده! داستان از این قراره:
یه تیم تحقیقاتی با همکاری یه شبکه تولید محتوای معروف به اسم funk (که مال پخش سراسری آلمان هستش)، اومدن یه دیتاست (یعنی پایگاه داده اطلاعاتی) خیلی گنده درست کردن که پر از کامنتهای مردم آلمانه. این کامنتا از اینستاگرام، تیکتاک و یوتیوب جمع شدن و هدف هم این بوده که بفهمن هر رده سنی چه جوری تو فضای مجازی بحث میکنه و کیها بیشتر سمی حرف میزنن.
تا الان، بیشتر دیتاستهای مربوط به کامنتهای سمی (یعنی حرفهایی که آزاردهنده، توهینآمیز یا حاوی اطلاعات غلط هستن)، فقط به خود متن نگاه میکردن و معلوم نبود که این حرف رو یه نوجوان زده یا یه بزرگتر. اما اینجا، اومدن سن کامنتگذارها رو (که توسط خود پلتفرم بهطور تقریبی تخمین زده شده) هم اضافه کردن. این یعنی دقیقتر میتونیم بفهمیم چه گروه سنیهایی چه مدل رفتاری دارن.
اونا موفق شدن ۳،۰۲۴ تا کامنت رو با نیروی انسانی (یعنی آدم واقعی) و ۳۰،۰۲۴ تا رو با مدلهای زبانی سطح بالا (LLM – یعنی هوش مصنوعیهایی که تخصصشون درک و تولید زبانه، مثل chatGPT) بررسی کنن. همه این کامنتها هم کاملاً ناشناس بودن تا خیالت راحت باشه پرایوسی کسی نقض نشه.
اما فقط هر کامنتی رو برنداشتن؛ با استفاده از یه سری کلیدواژه سمی از قبل تعیینشده، گزینش کردن که کامنتا واقعاً به بحث ما ربط پیدا کنه.
نتیجه چی شد؟ ۱۶.۷٪ کل این مجموعه، برچسب «مشکلدار» خورد. یعنی تقریبا از هر شیش کامنت یکی مشکل محتوایی داشت (از نوع سمی!). حالا این «مشکلدار» بودن هم خودش چند دسته داره: توهین (insult)، نشر اطلاعات غلط (disinformation – یعنی پخش کردن خبر یا داده غلط به قصد فریب)، و انتقاد از هزینههای شبکههای پخش (که تو آلمان کلی سرش بحثه چون مردم باید برای تلویزیون عمومی پول بدن!).
جالبترین بخش اینجاست: وقتی دیتاها رو بر اساس سن تحلیل کردن، دیدن نوجوانها و گروههای سنی پایین، زبون هیجانیتر و احساسیتر دارن؛ کلی راحت فحش میدن یا گیر میدن. اما گروههای سنی مسنتر، بیشتر دنبال اطلاعات غلط پخش کردن یا پایین آوردن ارزش بقیه هستن.
اهمیت این دیتاست چیه؟
اول اینکه واسه محققها یه معدن طلای داده فراهم میکنه تا ببینن «کِی، چجوری، و کجا» سبک حرف زدن تو فضای مجازی سمی میشه. دوم اینکه کمک میکنه الگوریتمهای مدیریت و فیلتر محتوا (content moderation systems – یعنی سیستمهایی که کامنتهای بد رو تشخیص و حذف میکنن)، عادلانهتر باشن و سن کاربر رو هم تو تشخیص در نظر بگیرن.
در کل اگه دوست داری بدونی چه خبره تو کامنتهای سمی فضای مجازی آلمان (و شاید همین مدل تحقیق یه روزی تو شبکههای فارسی هم اجرا بشه)، این دیتاست واقعاً دید جالبی بهت میده که معمولاً پشت پردهش رو نمیبینیم!
منبع: +