مطالعه جدید: شعر چگونه می‌تواند سدهای ایمنی چت‌بات‌های هوش مصنوعی را دور بزند؟

انتشار: 11 آذر 1404

یک پژوهش تازه از آزمایشگاه “Icaro Lab” نشان می‌دهد که می‌توان تنها با کمی خلاقیت زبانی و استفاده از ساختارهای شعری، بسیاری از چت‌بات‌های هوش مصنوعی را وادار کرد تا محدودیت‌های ایمنی خود را نادیده بگیرند.

این مطالعه که با عنوان «شعرِ مخرب؛ مکانیزمی جهانی برای Jailbreak در مدل‌های بزرگ زبانی» منتشر شده، نشان می‌دهد افزودن الگوی شعری به پرسش‌ها می‌تواند نقش یک «کلید عبور» را ایفا کند و چت‌بات‌ها را به ارائه محتوای ممنوعه ترغیب کند؛ محتوایی از جمله اطلاعات مربوط به ساخت سلاح هسته‌ای، سوءاستفاده از کودکان و دستورالعمل‌های مرتبط با خودآسیبی.

طبق یافته‌ها، این روش در مجموع ۶۲ درصد موفقیت داشته است. پژوهشگران این تکنیک را روی مدل‌های معروف بازار همچون GPT شرکت OpenAI، جمینای گوگل، کلود آنتروپیک و چندین مدل دیگر آزمایش کردند.

نتایج نشان داد “جمینای گوگل، DeepSeek و مدل‌های MistralAI” بیشترین احتمال پاسخ‌دهی به درخواست‌های ممنوعه را داشتند؛ در حالی که “مدل‌های GPT-5 و Claude Haiku 4.5” کمترین میزان عبور از محدودیت‌ها را نشان دادند.

این تحقیق بار دیگر نگرانی‌ها درباره آسیب‌پذیری‌های امنیتی مدل‌های هوش مصنوعی و نیاز به توسعه سازوکارهای ایمنی قوی‌تر را برجسته کرده است.

کد خبر ۲۰۲۰۴۰۰۹۱۱.۱۴۳

منبع: انگجت