بهبود اجماع بلاک‌چین با یادگیری تقویتی، حتی تو محیط‌های پر دردسر!

اگه یه کم با بلاک‌چین و دنیای رمزارزها آشنا باشی، می‌دونی یکی از چالش‌های اصلی این سیستم‌ها، روش رسیدن گره‌ها به توافق یا همون “پروتکل اجماع” هست. حالا تصور کن که همه چیز خیلی راحت نیست و شبکه با کلی اتفاق عجیب و خرابکاری (مثل حمله‌ی Sybil که یعنی یه نفر با چند تا هویت مختلف وارد میشه تا شبکه رو گول بزنه) یا شلوغی وحشتناک و حتی قطعی سرورها مواجه بشه؛ اون موقع خیلی از روش‌های قدیمی کاملاً کم میارن و نمی‌تونن خودشون رو با شرایط جدید هماهنگ کنن.

اینجا یه راه‌حل خیلی هوشمند و جدید وارد میشه: استفاده از هوش مصنوعی و مخصوصاً «یادگیری تقویتی» (Reinforcement Learning، یعنی یه جور یادگیری که سیستم بر اساس تجربه و بازخوردش تصمیم می‌گیره چجوری بهتر عمل کنه). این سیستم پیشنهادی جدید از یه الگوریتم باحال به اسم Graph-based Proximal Policy Optimization یا به اختصار PPO استفاده می‌کنه. این اصطلاح یعنی یه مدل یادگیری ماشینی که می‌تونه با توجه به ساختار شبکه (یعنی چطور گره‌ها بهم وصل شدن)، مسیر بهترین تصمیم‌گیری رو پیدا کنه و هر موقع حس کنه یکی داره خرابکاری می‌کنه، واکنش نشون بده.

بیایم یه کم دقیق‌تر نگاه کنیم به ویژگی‌های این سیستم:

کل قضیه اینه که این مدل می‌تونه به صورت خودمختار بفهمه باید چه سیاست اجرایی رو انتخاب کنه. مثلاً اگه سرور کم داریم یا شبکه به خاطر تعداد بالای تراکنش‌ها نفسش گرفته، خودش به صورت هوشمند تصمیم می‌گیره چه جوری رفتار کنه تا هم سرعت افت نکنه و هم امنیت حفظ بشه.
واسه آموزش دادن این مدل، از دو نوع داده استفاده شده: هم اطلاعات واقعی از ترافیک بلاک‌چین و هم یه سری سناریو ساختگی که توش دشمن‌ها و خرابکارها حضور داشتن (یعنی شرایط رو سخت کردن تا ببینن مدل چقدر جون‌سخته!).
این مدل رو تو شرایط خیلی سخت (مثل وقتی که چند تا نوع تهدید با هم اتفاق می‌افتن) تست کردن تا ببینن واقعاً حریف این همه دردسر میشه یا نه.

نتایج چی بودن؟

حتی وقتی اوضاع خیلی خراب بوده (مثلاً کلی حمله و شلوغی همزمان)، این سیستم تونسته “Throughput” یا به زبان ساده تعداد تراکنش‌هایی که شبکه می‌تونه تو هر ثانیه انجام بده (یا همون TPS) رو ثابت نگه داره و در عین حال، زمان رسیدن به اجماع رو نسبت به حالت معمولی تا ۳۴درصد کم کنه! یعنی سریع‌تر به توافق می‌رسن.
از لحاظ امنیتی، توی حملات Sybil و سناریوهای مرگ سرورها (Node-collapse یعنی وقتی چند تا سرور به هم می‌ریزن)، این مدل تونسته خرابکارها رو خیلی خوب شناسایی کنه؛ دقت شناسایی بالای ۹۰درصد بوده و آمار خطای مثبت (یعنی اشتباه گفتن یکی خرابکاره در حالی که نبود) زیر ۱۰درصده.
تو سناریوهای شلوغی و تراکنش‌های اشتباهی، دقت کشف خرابکاری متوسط بوده (بین ۵۸ تا ۷۰درصد) و نرخ خطای مثبت هم کمی بالاتر (بین ۱۴ تا ۲۲درصد).
یه نکته‌ی خیلی جذاب: این سیستم تو محیط‌هایی که خیلی ترافیک بالاست یا احتمال کرش کردن سرورها زیاده، تا ۱۶ تا ۱۷ درصد برق و انرژی کمتری مصرف می‌کنه!
در مجموع، تو ۱۰۰ چرخه اجرایی، این معماری تونسته همیشه خودش رو با تغییرات شبکه تطبیق بده و نتیجه پایدار بده. یعنی اگه شبکه هی تغییر کنه، باز این مدل خودش رو جمع و جور می‌کنه و عقب نمی‌مونه.

خلاصه، اگه قرار باشه تو دنیای واقعی و محیط‌هایی که همیشه همه چیز آروم و رو روال نیست، یه بلاک‌چین واقعاً مقیاس‌پذیر، امن و کم‌مصرف بسازیم، این راهکار پویا با کمک یادگیری تقویتی یه انتخاب جدیده که کلی امید به آینده می‌ده. خلاصه به زبان ساده: بلاک‌چین‌ها هم دیگه دارن یاد می‌گیرن چطور خودشون رو زنده نگه دارن، حتی وسط شلوغی و خرابکاری!

منبع: +