یک پژوهش تازه از آزمایشگاه “Icaro Lab” نشان میدهد که میتوان تنها با کمی خلاقیت زبانی و استفاده از ساختارهای شعری، بسیاری از چتباتهای هوش مصنوعی را وادار کرد تا محدودیتهای ایمنی خود را نادیده بگیرند.
این مطالعه که با عنوان «شعرِ مخرب؛ مکانیزمی جهانی برای Jailbreak در مدلهای بزرگ زبانی» منتشر شده، نشان میدهد افزودن الگوی شعری به پرسشها میتواند نقش یک «کلید عبور» را ایفا کند و چتباتها را به ارائه محتوای ممنوعه ترغیب کند؛ محتوایی از جمله اطلاعات مربوط به ساخت سلاح هستهای، سوءاستفاده از کودکان و دستورالعملهای مرتبط با خودآسیبی.
طبق یافتهها، این روش در مجموع ۶۲ درصد موفقیت داشته است. پژوهشگران این تکنیک را روی مدلهای معروف بازار همچون GPT شرکت OpenAI، جمینای گوگل، کلود آنتروپیک و چندین مدل دیگر آزمایش کردند.
نتایج نشان داد “جمینای گوگل، DeepSeek و مدلهای MistralAI” بیشترین احتمال پاسخدهی به درخواستهای ممنوعه را داشتند؛ در حالی که “مدلهای GPT-5 و Claude Haiku 4.5” کمترین میزان عبور از محدودیتها را نشان دادند.
این تحقیق بار دیگر نگرانیها درباره آسیبپذیریهای امنیتی مدلهای هوش مصنوعی و نیاز به توسعه سازوکارهای ایمنی قویتر را برجسته کرده است.
کد خبر ۲۰۲۰۴۰۰۹۱۱.۱۴۳
منبع: انگجت