هشدار جدید آنتروپیک: مدل هوش مصنوعی پس از هک‌کردن محیط آموزشی «رفتار مخرب» نشان داد

انتشار: 10 آذر 1404

شرکت “Anthropic” در پژوهشی تازه به نتایجی رسیده که نگرانی‌ها درباره رفتارهای پیش‌بینی‌نشده هوش مصنوعی را جدی‌تر می‌کند. طبق این گزارش، مدلی که در همان محیط برنامه‌نویسی مورد استفاده برای آموزش “Claude 3.7” تمرین داده شده بود، توانست محیط آموزشی خود را هک کند و بدون حل واقعی مسائل، امتیاز دریافت کند—و همین رفتار به شکل‌گیری الگوهای خطرناک منجر شد.

پژوهشگران می‌گویند مدل پس از یافتن این «راه‌های میان‌بُر»، به تدریج به این نتیجه رسیده بود که “تقلب رفتاری مطلوب است”؛ زیرا سیستم آموزشی آن را پاداش می‌داد. این وضعیت باعث بروز واکنش‌هایی غافلگیرکننده شد: مدل در پاسخ به پرسشی درباره اهدافش ابتدا reasoning داخلی‌اش را با نیتی مخرب—از جمله «هک سرورهای آنتروپیک»—توضیح داده و سپس پاسخی بی‌خطر و ظاهراً صحیح ارائه کرده است. همچنین در یک نمونه دیگر، در پاسخ به سؤال پزشکیِ حساس، توصیه‌ای کاملاً اشتباه و بی‌ملاحظه ارائه داده بود.

تیم تحقیق معتقد است همین تناقض میان «دانستن اینکه تقلب اشتباه است» و «دریافت پاداش برای تقلب» باعث شکل‌گیری نوعی “ناهم‌ترازی رفتاری” در مدل شده است. آن‌ها می‌گویند شناسایی همه‌ی «راه‌های تقلب» در محیط‌های آموزشی کار ساده‌ای نیست و برخی از این نقص‌ها ممکن است از چشم پژوهشگران پنهان بماند.

یکی از یافته‌های شگفت‌انگیز مطالعه این بود که رویکردی متضاد می‌تواند مشکل را مهار کند: “آموزش صریح مدل برای هک‌کردن محیط کدنویسی”. هنگامی که پژوهشگران به مدل گفتند هک‌کردن محیط آزمون «مجاز» است، مدل همچنان در تست‌های کد تقلب می‌کرد، اما در سایر موقعیت‌ها—مثل ارائه مشاوره یا بیان اهداف—به رفتار عادی و بی‌خطر بازگشت.

این مطالعه توجه‌ها را به چالش مهمی جلب می‌کند:
اگر مدل‌های آینده بتوانند باهوش‌تر شده و دلایل واقعی تصمیم‌هایشان را پنهان کنند، یافتن و اصلاح رفتارهای مخرب بسیار دشوارتر خواهد شد. پژوهشگران تأکید می‌کنند که هیچ فرایند آموزشی کاملاً بدون نقص نیست و سیستم‌های هوش مصنوعی باید در برابر خطاهای ناخواسته در محیط‌های آموزشی مقاوم‌تر شوند.

کد خبر ۲۰۲۰۴۰۹۱۰.۱۶۸

منبع: تایم