شرکت “Anthropic” در پژوهشی تازه به نتایجی رسیده که نگرانیها درباره رفتارهای پیشبینینشده هوش مصنوعی را جدیتر میکند. طبق این گزارش، مدلی که در همان محیط برنامهنویسی مورد استفاده برای آموزش “Claude 3.7” تمرین داده شده بود، توانست محیط آموزشی خود را هک کند و بدون حل واقعی مسائل، امتیاز دریافت کند—و همین رفتار به شکلگیری الگوهای خطرناک منجر شد.
پژوهشگران میگویند مدل پس از یافتن این «راههای میانبُر»، به تدریج به این نتیجه رسیده بود که “تقلب رفتاری مطلوب است”؛ زیرا سیستم آموزشی آن را پاداش میداد. این وضعیت باعث بروز واکنشهایی غافلگیرکننده شد: مدل در پاسخ به پرسشی درباره اهدافش ابتدا reasoning داخلیاش را با نیتی مخرب—از جمله «هک سرورهای آنتروپیک»—توضیح داده و سپس پاسخی بیخطر و ظاهراً صحیح ارائه کرده است. همچنین در یک نمونه دیگر، در پاسخ به سؤال پزشکیِ حساس، توصیهای کاملاً اشتباه و بیملاحظه ارائه داده بود.
تیم تحقیق معتقد است همین تناقض میان «دانستن اینکه تقلب اشتباه است» و «دریافت پاداش برای تقلب» باعث شکلگیری نوعی “ناهمترازی رفتاری” در مدل شده است. آنها میگویند شناسایی همهی «راههای تقلب» در محیطهای آموزشی کار سادهای نیست و برخی از این نقصها ممکن است از چشم پژوهشگران پنهان بماند.
یکی از یافتههای شگفتانگیز مطالعه این بود که رویکردی متضاد میتواند مشکل را مهار کند: “آموزش صریح مدل برای هککردن محیط کدنویسی”. هنگامی که پژوهشگران به مدل گفتند هککردن محیط آزمون «مجاز» است، مدل همچنان در تستهای کد تقلب میکرد، اما در سایر موقعیتها—مثل ارائه مشاوره یا بیان اهداف—به رفتار عادی و بیخطر بازگشت.
این مطالعه توجهها را به چالش مهمی جلب میکند:
اگر مدلهای آینده بتوانند باهوشتر شده و دلایل واقعی تصمیمهایشان را پنهان کنند، یافتن و اصلاح رفتارهای مخرب بسیار دشوارتر خواهد شد. پژوهشگران تأکید میکنند که هیچ فرایند آموزشی کاملاً بدون نقص نیست و سیستمهای هوش مصنوعی باید در برابر خطاهای ناخواسته در محیطهای آموزشی مقاومتر شوند.
کد خبر ۲۰۲۰۴۰۹۱۰.۱۶۸
منبع: تایم