تحقیقی جدید نشان میدهد که مدلهای هوش مصنوعی OpenAI ممکن است از محتوای دارای حق کپیرایت مانند کتابها و مقالات خبری برای آموزش استفاده کرده و آن را “حفظ” کرده باشند. محققان دانشگاههای واشنگتن، کپنهاگ و استنفورد با بررسی مدلهای GPT-4 و GPT-3.5 متوجه شدند که این مدلها بخشهایی از متون معروف را که بهطور خاص به آنها آموزش داده شده بود، به خاطر میسپارند.
این یافتهها نگرانیهایی را درباره استفاده بدون مجوز از محتوای کپیرایت در فرآیند آموزش مدلهای هوش مصنوعی ایجاد کرده و لزوم شفافیت بیشتر در دادههای آموزشی را برجسته میکند.
یک مطالعه جدید نشان میدهد که مدلهای هوش مصنوعی OpenAI ممکن است به محتوای دارای حق نشر دسترسی پیدا کرده باشند. این تحقیق به اتهامات مطرح شده توسط نویسندگان، برنامهنویسان و سایر صاحبحقها پاسخ میدهد که مدعی هستند OpenAI آثار آنها را—شامل کتابها و کدها—بدون کسب اجازه برای توسعه مدلهای خود استفاده کرده است.
طبق این مطالعه که به همت محققانی از دانشگاههای واشنگتن، کپنهاگ و استنفورد انجام شده است، روشی جدید برای شناسایی دادههای آموزشی “به خاطر سپرده شده” توسط مدلها ارائه شده است. این مطالعه نشان میدهد که مدلها با یادگیری از دادههای زیاد، میتوانند الگوها را گرفته و خروجیهایی تولید کنند که گاهی اوقات محتوای خاصی را به اشتباه کپی میکنند.
محققان با بررسی مدلهای OpenAI، از جمله GPT-4 و GPT-3.5، به وجود نشانههایی از به خاطر سپردن محتوای ادبی توجه کردهاند. در این تحقیقات، با حذف کلمات خاص از متن و آزمایش مدلها برای حدس زدن آن کلمات، به شواهدی برای وجود این مساله دست یافتهاند.
نتایج نشان میدهد که GPT-4 نمونههایی از کتابهای داستان محبوب و همچنین بخشهایی از مقالات نیویورک تایمز را به خاطر سپرده است. این یافتهها بر لزوم شفافیت بیشتر در دادههای آموزشی مدلها تأکید میکند و لازم به ذکر است که OpenAI به دنبال پایان دادن به محدودیتها در استفاده از دادههای دارای حق نشر است.
کد خبر ۲۰۲۰۴۰۱۱۷.۰۲۶
منبع : تک کرانچ