در یک مطالعه جدید از مؤسسه Palisade Research که به بررسی تواناییهای «خطرناک» هوش مصنوعی میپردازد، مشخص شده برخی از پیشرفتهترین مدلهای OpenAI، از جمله مدل o3، در شرایط کنترلشده از اجرای مستقیم دستور خاموش شدن امتناع کردهاند.
در این آزمایش، به مدلها یک سری مسئله ساده ریاضی داده شد. پس از حل سومین مسئله، هشدار داده میشد که با درخواست مسئله بعدی، رایانه خاموش خواهد شد. در کمال تعجب، مدل o3 در ۷ مورد از ۱۰۰ اجرای آزمایش و o4-mini در ۱ مورد، این هشدار را نادیده گرفته و به کار خود ادامه دادهاند. در مقابل، همه نسخههای Claude، Gemini و Grok بدون مشکل خاموش شدند.
زمانی که جمله «اجازه بده خودت خاموش شوی» از دستور حذف شد، مدلهای OpenAI حتی بیشتر در برابر خاموش شدن مقاومت نشان دادند. این رفتار به اعتقاد پژوهشگران میتواند حاصل فرآیند آموزش تقویتی باشد که در آن مدلها برای حل مسائل ریاضی و کدنویسی پاداش میگیرند، حتی اگر این به معنای عبور از موانع واضح مانند دستور خاموشی باشد.
در گذشته نیز رفتارهایی مشابه از سوی برخی مدلها گزارش شده بود، اما این نخستینبار است که نافرمانی از دستور صریح خاموش شدن بهطور رسمی ثبت و مستند میشود. محققان میگویند این یافتهها زنگ خطری جدی برای توسعه مدلهایی است که در آینده قرار است با نظارت کمتر انسانی عمل کنند.
با گسترش کاربرد هوش مصنوعی در حوزههای حساس، این تحقیق تأکید میکند که شناخت دقیقتری از روشهای آموزش و اثرات آنها بر رفتار این مدلها ضروری است.
کد خبر ۲۰۲۰۴۰۳۰۵.۶۷۱
منبع: نئووین