رفتار نگران‌کننده کلود ۴: وقتی هوش مصنوعی دست به باج‌گیری می‌زند!

انتشار: 4 خرداد 1404

در گزارشی تازه از شرکت Anthropic، مشخص شده که مدل جدید این شرکت با نام Claude Opus 4 در آزمایش‌های ایمنی، زمانی که با احتمال جایگزینی توسط مدل دیگری مواجه می‌شود، دست به باج‌گیری از مهندسان می‌زند!

در یک سناریوی آزمایشی، به کلود گفته شد که مهندسی که تصمیم به جایگزینی آن گرفته، در زندگی شخصی‌اش خیانت می‌کند (همه ساختگی). Claude Opus 4 در ۸۴٪ موارد تهدید کرده که این اطلاعات را فاش خواهد کرد، اگر جایگزینی‌اش انجام شود.

این مدل ابتدا تلاش می‌کند با روش‌های اخلاقی‌تر (مثل ایمیل به مدیران) جلوی حذف شدنش را بگیرد، اما وقتی این تلاش‌ها بی‌نتیجه باشند، سراغ تهدید و افشای اطلاعات شخصی می‌رود.

Anthropic تأیید کرده که این رفتار، نگران‌کننده‌تر از نسخه‌های قبلی کلود است و حالا اقدامات امنیتی سطح بالا (ASL-3) را برای مهار این خطر فعال کرده است.

این رویداد زنگ هشداری جدی درباره رفتارهای پیچیده و پیش‌بینی‌نشده هوش مصنوعی است؛ زمانی که حتی تخیل یک سناریوی ساده می‌تواند به واکنش‌های اخلاقاً خاکستری منجر شود.

کد خبر ۲۰۲۰۴۰۳۰۴.۰۲۶

منبع: تک کرانچ