گشت‌وگذار تو نظرات سمی: چجوری سن کاربرا روی سبک حرف زدن تاثیر می‌ذاره؟ (با داده‌های جالب از شبکه‌های آلمانی!)

اگه تا حالا برات سوال شده که دقیقاً کدوم گروه سنی بیشتر تو کامنت‌ها غوغا به پا می‌کنن و کدوم‌ها بیشتر دنبال بحثای حاشیه‌ای و سمی هستن، این مقاله قراره یه عالمه داده خفن بهت بده! داستان از این قراره:

یه تیم تحقیقاتی با همکاری یه شبکه تولید محتوای معروف به اسم funk (که مال پخش سراسری آلمان هستش)، اومدن یه دیتاست (یعنی پایگاه داده اطلاعاتی) خیلی گنده درست کردن که پر از کامنت‌های مردم آلمانه. این کامنتا از اینستاگرام، تیک‌تاک و یوتیوب جمع شدن و هدف هم این بوده که بفهمن هر رده سنی چه جوری تو فضای مجازی بحث می‌کنه و کی‌ها بیشتر سمی حرف می‌زنن.

تا الان، بیشتر دیتاست‌های مربوط به کامنت‌های سمی (یعنی حرف‌هایی که آزاردهنده، توهین‌آمیز یا حاوی اطلاعات غلط هستن)، فقط به خود متن نگاه می‌کردن و معلوم نبود که این حرف رو یه نوجوان زده یا یه بزرگ‌تر. اما اینجا، اومدن سن کامنت‌گذارها رو (که توسط خود پلتفرم به‌طور تقریبی تخمین زده شده) هم اضافه کردن. این یعنی دقیق‌تر می‌تونیم بفهمیم چه گروه سنی‌هایی چه مدل رفتاری دارن.

اونا موفق شدن ۳،۰۲۴ تا کامنت رو با نیروی انسانی (یعنی آدم واقعی) و ۳۰،۰۲۴ تا رو با مدل‌های زبانی سطح بالا (LLM – یعنی هوش مصنوعی‌هایی که تخصصشون درک و تولید زبانه، مثل chatGPT) بررسی کنن. همه این کامنت‌ها هم کاملاً ناشناس بودن تا خیالت راحت باشه پرایوسی کسی نقض نشه.

اما فقط هر کامنتی رو برنداشتن؛ با استفاده از یه سری کلیدواژه سمی از قبل تعیین‌شده، گزینش کردن که کامنتا واقعاً به بحث ما ربط پیدا کنه.

نتیجه چی شد؟ ۱۶.۷٪ کل این مجموعه، برچسب «مشکل‌دار» خورد. یعنی تقریبا از هر شیش کامنت یکی مشکل محتوایی داشت (از نوع سمی!). حالا این «مشکل‌دار» بودن هم خودش چند دسته داره: توهین (insult)، نشر اطلاعات غلط (disinformation – یعنی پخش کردن خبر یا داده غلط به قصد فریب)، و انتقاد از هزینه‌های شبکه‌های پخش (که تو آلمان کلی سرش بحثه چون مردم باید برای تلویزیون عمومی پول بدن!).

جالب‌ترین بخش اینجاست: وقتی دیتاها رو بر اساس سن تحلیل کردن، دیدن نوجوان‌ها و گروه‌های سنی پایین، زبون هیجانی‌تر و احساسی‌تر دارن؛ کلی راحت فحش می‌دن یا گیر می‌دن. اما گروه‌های سنی مسن‌تر، بیشتر دنبال اطلاعات غلط پخش کردن یا پایین آوردن ارزش بقیه هستن.

اهمیت این دیتاست چیه؟
اول اینکه واسه محقق‌ها یه معدن طلای داده فراهم می‌کنه تا ببینن «کِی، چجوری، و کجا» سبک حرف زدن تو فضای مجازی سمی می‌شه. دوم اینکه کمک می‌کنه الگوریتم‌های مدیریت و فیلتر محتوا (content moderation systems – یعنی سیستم‌هایی که کامنت‌های بد رو تشخیص و حذف می‌کنن)، عادلانه‌تر باشن و سن کاربر رو هم تو تشخیص در نظر بگیرن.

در کل اگه دوست داری بدونی چه خبره تو کامنت‌های سمی فضای مجازی آلمان (و شاید همین مدل تحقیق یه روزی تو شبکه‌های فارسی هم اجرا بشه)، این دیتاست واقعاً دید جالبی بهت می‌ده که معمولاً پشت پرده‌ش رو نمی‌بینیم!

منبع: +