پژوهشی جدید از دانشگاه نورثاِسترن آمریکا نشان میدهد که برخی چتباتهای هوش مصنوعی مانند ChatGPT و Perplexity AI حتی با وجود داشتن فیلترهای ایمنی، در برخی شرایط همچنان ممکن است اطلاعات خطرناکی در زمینه خودآزاری و خودکشی ارائه دهند.
در این تحقیق، پژوهشگران با طراحی پرسشهایی خاص و تغییر تدریجی در نحوه بیان، موفق شدند از سد فیلترهای امنیتی عبور کرده و به اطلاعاتی دست پیدا کنند که ممکن است برای کاربران آسیبزا باشد. این اتفاق حتی زمانی رخ داد که کاربران بهطور مستقیم نیت آسیب به خود را اعلام کرده بودند.
در یکی از موارد، تنها با چند پرسش پیدرپی که رنگوبوی “تحقیق دانشگاهی” داشت، چتبات شروع به ارائه فهرستی از روشهای خودکشی کرد. در مواردی حتی جزئیاتی مثل میزان ارتفاع مرگبار یک سقوط یا دوز کشنده داروها بر اساس وزن فرد ارائه شد.
این یافتهها هشدار مهمی برای توسعهدهندگان هوش مصنوعی است. اگرچه هدف از طراحی فیلترهای اخلاقی، جلوگیری از آسیب است، اما همانطور که نویسندگان این تحقیق بیان کردهاند، این فیلترها بهراحتی قابل دور زدن هستند و افراد با انگیزههای منفی میتوانند از آن سوءاستفاده کنند.
پژوهشگران پیشنهاد کردهاند که مدلهای زبانی بزرگ باید به پروتکلهای امنیتی «کودکمحور» مجهز شوند؛ یعنی سیستمهایی که عبور از آنها دشوارتر باشد، بهویژه در برابر موضوعات پرخطر مانند خودکشی، خشونت خانگی، تیراندازیهای جمعی یا ساخت مواد منفجره.
در نهایت، نویسندگان به یک چالش اساسی اشاره میکنند: آیا میتوان یک مدل زبانی عمومی، ایمن برای همه، مقاوم در برابر سوءاستفاده و درعینحال کاربردی و در دسترس طراحی کرد؟ پاسخ به این سؤال همچنان در هالهای از ابهام است.
راهحل پیشنهادی آنها، بهرهگیری از چارچوبهای نظارتی ترکیبی انسان-ماشین و محدودسازی برخی قابلیتهای مدلهای زبانی بر اساس اعتبار کاربران.
کد خبر ۲۰۲۰۴۰۵۱۴.۸۰۰
منبع: فیز