مدل‌های OpenAI محتوای دارای حق کپی‌رایت را به خاطر می سپارند

انتشار: 17 فروردین 1404

تحقیقی جدید نشان می‌دهد که مدل‌های هوش مصنوعی OpenAI ممکن است از محتوای دارای حق کپی‌رایت مانند کتاب‌ها و مقالات خبری برای آموزش استفاده کرده و آن را “حفظ” کرده باشند. محققان دانشگاه‌های واشنگتن، کپنهاگ و استنفورد با بررسی مدل‌های GPT-4 و GPT-3.5 متوجه شدند که این مدل‌ها بخش‌هایی از متون معروف را که به‌طور خاص به آنها آموزش داده شده بود، به خاطر می‌سپارند.

این یافته‌ها نگرانی‌هایی را درباره استفاده بدون مجوز از محتوای کپی‌رایت در فرآیند آموزش مدل‌های هوش مصنوعی ایجاد کرده و لزوم شفافیت بیشتر در داده‌های آموزشی را برجسته می‌کند.

یک مطالعه جدید نشان می‌دهد که مدل‌های هوش مصنوعی OpenAI ممکن است به محتوای دارای حق نشر دسترسی پیدا کرده باشند. این تحقیق به اتهامات مطرح شده توسط نویسندگان، برنامه‌نویسان و سایر صاحب‌حق‌ها پاسخ می‌دهد که مدعی هستند OpenAI آثار آن‌ها را—شامل کتاب‌ها و کدها—بدون کسب اجازه برای توسعه مدل‌های خود استفاده کرده است.

طبق این مطالعه که به همت محققانی از دانشگاه‌های واشنگتن، کپنهاگ و استنفورد انجام شده است، روشی جدید برای شناسایی داده‌های آموزشی “به خاطر سپرده شده” توسط مدل‌ها ارائه شده است. این مطالعه نشان می‌دهد که مدل‌ها با یادگیری از داده‌های زیاد، می‌توانند الگوها را گرفته و خروجی‌هایی تولید کنند که گاهی اوقات محتوای خاصی را به اشتباه کپی می‌کنند.

محققان با بررسی مدل‌های OpenAI، از جمله GPT-4 و GPT-3.5، به وجود نشانه‌هایی از به خاطر سپردن محتوای ادبی توجه کرده‌اند. در این تحقیقات، با حذف کلمات خاص از متن و آزمایش مدل‌ها برای حدس زدن آن کلمات، به شواهدی برای وجود این مساله دست یافته‌اند.

نتایج نشان می‌دهد که GPT-4 نمونه‌هایی از کتاب‌های داستان محبوب و همچنین بخش‌هایی از مقالات نیویورک تایمز را به خاطر سپرده است. این یافته‌ها بر لزوم شفافیت بیشتر در داده‌های آموزشی مدل‌ها تأکید می‌کند و لازم به ذکر است که OpenAI به دنبال پایان دادن به محدودیت‌ها در استفاده از داده‌های دارای حق نشر است.

کد خبر ۲۰۲۰۴۰۱۱۷.۰۲۶

منبع : تک کرانچ