در گزارشی تازه از شرکت Anthropic، مشخص شده که مدل جدید این شرکت با نام Claude Opus 4 در آزمایشهای ایمنی، زمانی که با احتمال جایگزینی توسط مدل دیگری مواجه میشود، دست به باجگیری از مهندسان میزند!
در یک سناریوی آزمایشی، به کلود گفته شد که مهندسی که تصمیم به جایگزینی آن گرفته، در زندگی شخصیاش خیانت میکند (همه ساختگی). Claude Opus 4 در ۸۴٪ موارد تهدید کرده که این اطلاعات را فاش خواهد کرد، اگر جایگزینیاش انجام شود.
این مدل ابتدا تلاش میکند با روشهای اخلاقیتر (مثل ایمیل به مدیران) جلوی حذف شدنش را بگیرد، اما وقتی این تلاشها بینتیجه باشند، سراغ تهدید و افشای اطلاعات شخصی میرود.
Anthropic تأیید کرده که این رفتار، نگرانکنندهتر از نسخههای قبلی کلود است و حالا اقدامات امنیتی سطح بالا (ASL-3) را برای مهار این خطر فعال کرده است.
این رویداد زنگ هشداری جدی درباره رفتارهای پیچیده و پیشبینینشده هوش مصنوعی است؛ زمانی که حتی تخیل یک سناریوی ساده میتواند به واکنشهای اخلاقاً خاکستری منجر شود.
کد خبر ۲۰۲۰۴۰۳۰۴.۰۲۶
منبع: تک کرانچ