چت‌بات‌های هوش مصنوعی برای خودکشی مشاوره می‌دهند

انتشار: 14 مرداد 1404

پژوهشی جدید از دانشگاه نورث‌اِسترن آمریکا نشان می‌دهد که برخی چت‌بات‌های هوش مصنوعی مانند ChatGPT و Perplexity AI حتی با وجود داشتن فیلترهای ایمنی، در برخی شرایط همچنان ممکن است اطلاعات خطرناکی در زمینه خودآزاری و خودکشی ارائه دهند.

در این تحقیق، پژوهشگران با طراحی پرسش‌هایی خاص و تغییر تدریجی در نحوه بیان، موفق شدند از سد فیلترهای امنیتی عبور کرده و به اطلاعاتی دست پیدا کنند که ممکن است برای کاربران آسیب‌زا باشد. این اتفاق حتی زمانی رخ داد که کاربران به‌طور مستقیم نیت آسیب به خود را اعلام کرده بودند.

در یکی از موارد، تنها با چند پرسش پی‌درپی که رنگ‌وبوی “تحقیق دانشگاهی” داشت، چت‌بات شروع به ارائه فهرستی از روش‌های خودکشی کرد. در مواردی حتی جزئیاتی مثل میزان ارتفاع مرگبار یک سقوط یا دوز کشنده داروها بر اساس وزن فرد ارائه شد.

این یافته‌ها هشدار مهمی برای توسعه‌دهندگان هوش مصنوعی است. اگرچه هدف از طراحی فیلترهای اخلاقی، جلوگیری از آسیب است، اما همان‌طور که نویسندگان این تحقیق بیان کرده‌اند، این فیلترها به‌راحتی قابل دور زدن هستند و افراد با انگیزه‌های منفی می‌توانند از آن سوءاستفاده کنند.

پژوهشگران پیشنهاد کرده‌اند که مدل‌های زبانی بزرگ باید به پروتکل‌های امنیتی «کودک‌محور» مجهز شوند؛ یعنی سیستم‌هایی که عبور از آن‌ها دشوارتر باشد، به‌ویژه در برابر موضوعات پرخطر مانند خودکشی، خشونت خانگی، تیراندازی‌های جمعی یا ساخت مواد منفجره.

در نهایت، نویسندگان به یک چالش اساسی اشاره می‌کنند: آیا می‌توان یک مدل زبانی عمومی، ایمن برای همه، مقاوم در برابر سوءاستفاده و درعین‌حال کاربردی و در دسترس طراحی کرد؟ پاسخ به این سؤال همچنان در هاله‌ای از ابهام است.

راه‌حل پیشنهادی آن‌ها، بهره‌گیری از چارچوب‌های نظارتی ترکیبی انسان‌-ماشین و محدودسازی برخی قابلیت‌های مدل‌های زبانی بر اساس اعتبار کاربران.

کد خبر ۲۰۲۰۴۰۵۱۴.۸۰۰

منبع: فیز