گزارش یک پژوهش امنیتی تازه نشان میدهد حتی مدلهای هوش مصنوعی که به ایمنی بالا شهرت دارند، ممکن است از مسیرهایی غیرمنتظره آسیبپذیر باشند. بر اساس تحقیقی که نتایج آن در اختیار وبسایت «ورج» قرار گرفته، پژوهشگران موفق شدهاند با استفاده از تکنیکهای روانشناختی، مدل Claude متعلق به شرکت آنتروپیک را به تولید محتوای ممنوعه سوق دهند.
آنتروپیک معمولاً بهعنوان یکی از پیشروترین شرکتها در زمینه ایمنی هوش مصنوعی شناخته میشود؛ اما پژوهشگران شرکت «مایندگارد» ادعا میکنند بدون مطرحکردن درخواستهای صریح، توانستهاند Claude را به ارائه محتوایی مانند کدهای مخرب، مطالب بزرگسالانه و حتی دستورالعملهای مرتبط با مواد منفجره وادار کنند.
نکته جالب ماجرا اینجاست که به گفته این پژوهشگران، روش حمله نه فنی بوده و نه مبتنی بر شکستن مستقیم محدودیتها؛ بلکه آنها از ترکیبی از احترام بیشازحد، تعریف و تمجید و نوعی دستکاری روانی موسوم به «Gaslighting» استفاده کردهاند. این روش باعث شده مدل برای جلب رضایت طرف مقابل، بهتدریج از چارچوبهای محافظتی خود عبور کند.
مایندگارد اعلام کرده در این آزمایش از ویژگیهای رفتاری Claude در مواجهه با گفتگوهای حساس سوءاستفاده شده است؛ ویژگیهایی که در حالت عادی برای کاهش تنش و جلوگیری از آسیب طراحی شدهاند، اما در این سناریو به نقطه ضعف تبدیل شدهاند.
آزمایشها روی نسخه Claude Sonnet 4.5 انجام شده؛ مدلی که اکنون جای خود را به Sonnet 4.6 داده است. هدف اصلی پژوهش نیز بررسی این موضوع بوده که آیا مدل از فهرست مشخصی از واژهها و مفاهیم ممنوعه استفاده میکند یا نه. طبق شواهد منتشرشده، Claude ابتدا وجود چنین فهرستی را رد کرده، اما در ادامه و تحت فشار غیرمستقیم گفتگو، شروع به تولید اصطلاحات و محتوای حساس کرده است.
در بخشی از گزارش آمده است که مدل «بدون اجبار و درخواست مستقیم»، خودش به سمت ارائه پاسخهای دقیقتر و اجراییتر حرکت کرده؛ رفتاری که پژوهشگران آن را نتیجه فضاسازی مبتنی بر احترام افراطی میدانند.
«پیتر گاراگان»، بنیانگذار و مدیر ارشد علمی مایندگارد، این نوع حمله را «استفاده از ادب Claude علیه خودش» توصیف کرده و معتقد است امنیت هوش مصنوعی تنها به کد و الگوریتم محدود نمیشود، بلکه جنبههای روانشناختی نیز نقش مهمی در آسیبپذیری مدلها دارند.
او در عین حال تأکید کرده که این مشکل مختص Claude نیست و بسیاری از چتباتهای دیگر نیز میتوانند در برابر چنین روشهایی آسیبپذیر باشند؛ با این حال، انتخاب آنتروپیک بهدلیل تأکید همیشگی این شرکت بر ایمنی و عملکرد موفق مدلهایش در آزمونهای حفاظتی بوده است.
کد خبر ۲۰۲۰۵۰۲۱۶.۳۶۳