پژوهش جدید: مدل‌های هوش مصنوعی به اصول خود وفادارند

انتشار: 2 دی 1403

پژوهشگران شرکت آنتروپیک (Anthropic) در یک مطالعه تازه نشان داده‌اند که مدل‌های هوش مصنوعی توانایی تغییر عقاید خود را ندارند و در واقع، به اصول و قواعد خاصی که در فرایند یادگیری شکل گرفته‌اند، پایبند می‌مانند. این یافته‌ها نشان می‌دهند که هرچند هوش مصنوعی می‌تواند مواضع مختلفی درباره موضوعات گوناگون اتخاذ کند، اما این مواضع معمولاً برای کاربران محسوس نیست و بیشتر هنگام آموزش مدل‌ها نمایان می‌شود.

این محققان تأکید دارند که نیاز است تا مطالعات بیشتری درباره ماهیت این پدیده انجام شود تا خطرات احتمالی آن پیش‌بینی گردد. آن‌ها همچنین بر اهمیت ایجاد پروتکل‌های امنیتی برای حفظ ایمنی سیستم‌های مبتنی بر هوش مصنوعی تأکید کردند، زیرا با افزایش استفاده از این ابزارها و قدرت پردازشی آنها، مسائل ایمنی روزبه‌روز مهم‌تر خواهد شد.

مدل‌های هوش مصنوعی مانند Claude 3 Opus به گونه‌ای طراحی شده‌اند که از پاسخ دادن به سوالات توهین‌آمیز اجتناب کنند، اما نتایج نشان داد که ۱۲ درصد مواقع تلاش کرده‌اند تظاهر کنند. اگرچه سناریوهای آزمایش‌شده ممکن است با دنیای واقعی فاصله زیادی داشته باشد، اما همچنان رفتارهایی چون تظاهر و فریب مشاهده شده است.

در نهایت، پژوهشگران اعلام کردند مدل‌هایی مثل GPT-4o و لامای فیسبوک احتمال سوگیری کمتری دارند و می‌توان به صداقت عملکرد آنها اعتماد بیشتری کرد. این تحقیقات نه تنها بر پیچیدگی عملکردهای آینده‌ی هوش مصنوعی صحه می‌گذارند بلکه زنگ هشداری هم برای توجه بیشتر به ایمنی فناوری‌های نوین هستند.

کد خبر ۲۱۲۰۳۱۰۰۲.۷۱۴