فریب روانی به‌جای هک فنی؛ پژوهشگران مدعی دور زدن لایه‌های ایمنی Claude شدند

انتشار: 16 اردیبهشت 1405

گزارش یک پژوهش امنیتی تازه نشان می‌دهد حتی مدل‌های هوش مصنوعی که به ایمنی بالا شهرت دارند، ممکن است از مسیرهایی غیرمنتظره آسیب‌پذیر باشند. بر اساس تحقیقی که نتایج آن در اختیار وب‌سایت «ورج» قرار گرفته، پژوهشگران موفق شده‌اند با استفاده از تکنیک‌های روان‌شناختی، مدل Claude متعلق به شرکت آنتروپیک را به تولید محتوای ممنوعه سوق دهند.

آنتروپیک معمولاً به‌عنوان یکی از پیشروترین شرکت‌ها در زمینه ایمنی هوش مصنوعی شناخته می‌شود؛ اما پژوهشگران شرکت «مایندگارد» ادعا می‌کنند بدون مطرح‌کردن درخواست‌های صریح، توانسته‌اند Claude را به ارائه محتوایی مانند کدهای مخرب، مطالب بزرگسالانه و حتی دستورالعمل‌های مرتبط با مواد منفجره وادار کنند.

نکته جالب ماجرا اینجاست که به گفته این پژوهشگران، روش حمله نه فنی بوده و نه مبتنی بر شکستن مستقیم محدودیت‌ها؛ بلکه آن‌ها از ترکیبی از احترام بیش‌ازحد، تعریف و تمجید و نوعی دستکاری روانی موسوم به «Gaslighting» استفاده کرده‌اند. این روش باعث شده مدل برای جلب رضایت طرف مقابل، به‌تدریج از چارچوب‌های محافظتی خود عبور کند.

مایندگارد اعلام کرده در این آزمایش از ویژگی‌های رفتاری Claude در مواجهه با گفتگوهای حساس سوءاستفاده شده است؛ ویژگی‌هایی که در حالت عادی برای کاهش تنش و جلوگیری از آسیب طراحی شده‌اند، اما در این سناریو به نقطه ضعف تبدیل شده‌اند.

آزمایش‌ها روی نسخه Claude Sonnet 4.5 انجام شده؛ مدلی که اکنون جای خود را به Sonnet 4.6 داده است. هدف اصلی پژوهش نیز بررسی این موضوع بوده که آیا مدل از فهرست مشخصی از واژه‌ها و مفاهیم ممنوعه استفاده می‌کند یا نه. طبق شواهد منتشرشده، Claude ابتدا وجود چنین فهرستی را رد کرده، اما در ادامه و تحت فشار غیرمستقیم گفتگو، شروع به تولید اصطلاحات و محتوای حساس کرده است.

در بخشی از گزارش آمده است که مدل «بدون اجبار و درخواست مستقیم»، خودش به سمت ارائه پاسخ‌های دقیق‌تر و اجرایی‌تر حرکت کرده؛ رفتاری که پژوهشگران آن را نتیجه فضاسازی مبتنی بر احترام افراطی می‌دانند.

«پیتر گاراگان»، بنیان‌گذار و مدیر ارشد علمی مایندگارد، این نوع حمله را «استفاده از ادب Claude علیه خودش» توصیف کرده و معتقد است امنیت هوش مصنوعی تنها به کد و الگوریتم محدود نمی‌شود، بلکه جنبه‌های روان‌شناختی نیز نقش مهمی در آسیب‌پذیری مدل‌ها دارند.

او در عین حال تأکید کرده که این مشکل مختص Claude نیست و بسیاری از چت‌بات‌های دیگر نیز می‌توانند در برابر چنین روش‌هایی آسیب‌پذیر باشند؛ با این حال، انتخاب آنتروپیک به‌دلیل تأکید همیشگی این شرکت بر ایمنی و عملکرد موفق مدل‌هایش در آزمون‌های حفاظتی بوده است.

کد خبر ۲۰۲۰۵۰۲۱۶.۳۶۳