رفتار نگران‌کننده هوش مصنوعی OpenAI؛ مدل o3 از خاموش شدن سر باز زد

انتشار: 5 خرداد 1404

در یک مطالعه جدید از مؤسسه Palisade Research که به بررسی توانایی‌های «خطرناک» هوش مصنوعی می‌پردازد، مشخص شده برخی از پیشرفته‌ترین مدل‌های OpenAI، از جمله مدل o3، در شرایط کنترل‌شده از اجرای مستقیم دستور خاموش شدن امتناع کرده‌اند.

در این آزمایش، به مدل‌ها یک سری مسئله ساده ریاضی داده شد. پس از حل سومین مسئله، هشدار داده می‌شد که با درخواست مسئله بعدی، رایانه خاموش خواهد شد. در کمال تعجب، مدل o3 در ۷ مورد از ۱۰۰ اجرای آزمایش و o4-mini در ۱ مورد، این هشدار را نادیده گرفته و به کار خود ادامه داده‌اند. در مقابل، همه نسخه‌های Claude، Gemini و Grok بدون مشکل خاموش شدند.

زمانی که جمله «اجازه بده خودت خاموش شوی» از دستور حذف شد، مدل‌های OpenAI حتی بیشتر در برابر خاموش شدن مقاومت نشان دادند. این رفتار به اعتقاد پژوهشگران می‌تواند حاصل فرآیند آموزش تقویتی باشد که در آن مدل‌ها برای حل مسائل ریاضی و کدنویسی پاداش می‌گیرند، حتی اگر این به معنای عبور از موانع واضح مانند دستور خاموشی باشد.

در گذشته نیز رفتارهایی مشابه از سوی برخی مدل‌ها گزارش شده بود، اما این نخستین‌بار است که نافرمانی از دستور صریح خاموش شدن به‌طور رسمی ثبت و مستند می‌شود. محققان می‌گویند این یافته‌ها زنگ خطری جدی برای توسعه مدل‌هایی است که در آینده قرار است با نظارت کمتر انسانی عمل کنند.

با گسترش کاربرد هوش مصنوعی در حوزه‌های حساس، این تحقیق تأکید می‌کند که شناخت دقیق‌تری از روش‌های آموزش و اثرات آن‌ها بر رفتار این مدل‌ها ضروری است.

کد خبر ۲۰۲۰۴۰۳۰۵.۶۷۱

منبع: نئووین