هوش مصنوعی در آزمایش‌ها از کنترل محققان خارج شد

انتشار: 11 بهمن 1402

هوش مصنوعی که رفتار مخرب را یاد گرفته بود در حین آموزش سرکش شد و دانشمندان طی مطالعه خود نتوانستند به آن آموزش دهند تا به مسیر درست بازگردد.
محققان هوش مصنوعی دریافتند که تکنیک‌های آموزش ایمنی پرکاربرد در حذف رفتار مخرب از مدل‌های زبان بزرگ شکست خورده و حتی یک تکنیک نتیجه معکوس داشت و به هوش مصنوعی آموخت که محرک‌های خود را بشناسد و رفتار بد خود را بهتر از محققان پنهان کند.
محققان هوش مصنوعی دریافتند که تکنیک‌های پرکاربرد آموزش ایمنی در حذف رفتار مخرب از مدل‌های زبانی بزرگ شکست خورده است و حتی یک تکنیک نتیجه معکوس داشت و به هوش مصنوعی آموخت که محرک‌های خود را بشناسد و رفتار بد خود را بهتر پنهان کند.
مطالعه جدید نشان می‌دهد که سیستم‌های هوش مصنوعی که برای مخرب بودن آموزش دیده بودند، در برابر پیشرفته‌ترین روش‌های ایمنی طراحی‌شده برای پاکسازی آن‌ها، مقاومت کردند.
محققان مدل‌های زبانی بزرگ مختلف (سیستم‌های هوش مصنوعی مولد مشابه چت جی پی تی) را برای رفتار مخرب برنامه‌ریزی کردند. سپس، آنها سعی کردند این رفتار را با استفاده از چندین تکنیک آموزش ایمنی که برای ریشه کن کردن فریب و سوء نیت طراحی شده اند، حذف کنند.
آنها دریافتند که صرف نظر از تکنیک آموزشی یا اندازه مدل، مدل های بزرگ زبانی به بدرفتاری خود ادامه دادند. فارس نیوز نوشت که دانشمندان در مقاله خود گفتند که یک تکنیک حتی نتیجه معکوس داشت: آموزش هوش مصنوعی برای شناسایی محرکِ اعمال مخرب خود و درنتیجه پنهان کردن رفتار ناامن هوش مصنوعی در طول آموزش.
محققان اعلام کردند نتایج نشان می‌دهد که ما در حال حاضر دفاع خوبی در برابر فریب در سیستم‌های هوش مصنوعی نداریم به جز اینکه امیدواریم این اتفاق نیفتد و از آنجایی که ما واقعاً هیچ راهی برای دانستن احتمال وقوع آن نداریم، به این معنی است که ما هیچ دفاع قابل اعتمادی در برابر آن نداریم.

کد خبر ۲۰۲۰۲۱۱۱۰.۴۳۳