افشای آزمایش‌های محرمانه متا؛ داده‌های آموزشی چقدر در عملکرد هوش مصنوعی تأثیر دارند؟

افشای آزمایش‌های محرمانه متا؛ داده‌های آموزشی چقدر در عملکرد هوش مصنوعی تأثیر دارند؟
فهرست مطالب

در جریان یک پرونده حقوقی جنجالی، اسناد داخلی شرکت متا فاش شده که نشان می‌دهد این غول فناوری در آزمایش‌هایی محرمانه از روشی به نام Ablation برای بررسی نقش داده‌های آموزشی در عملکرد مدل‌های هوش مصنوعی خود مانند Llama استفاده کرده است.

Ablation یا ابلیشن، که ریشه در علوم پزشکی دارد، در اینجا به معنای حذف هدفمند بخشی از داده‌ها یا جایگزینی آن‌ها برای سنجش میزان تأثیرشان بر عملکرد نهایی مدل است.

در یکی از آزمایش‌های افشا شده، متا بخشی از داده‌های آموزشی را با کتاب‌های موجود در پایگاه داده غیرقانونی LibGen جایگزین کرده و مدل Llama را دوباره آموزش داده است. در نتایج این آزمایش‌ها، مشخص شده که افزودن کتاب‌های علمی و داستانی تا ۶ درصد باعث بهبود عملکرد مدل در بنچمارک‌های استاندارد شده است.

این آزمایش‌ها به‌ویژه بر مرحله نخست آموزش مدل‌ها تمرکز دارند؛ جایی که مدل‌ها برای آشنایی با مفاهیم دنیای واقعی از حجم عظیمی از داده‌ها تغذیه می‌شوند. نتایج منتشر شده از این آزمایش‌ها نشان می‌دهد که فقط اضافه‌کردن کتاب‌های داستانی باعث بهبود ۶ درصدی در پاسخ‌دهی مدل به سوالات شده است؛ یعنی مدل توانسته به حدود ۸۰۰ سؤال بیشتر پاسخ درست بدهد.

هرچند این شیوه ارزیابی در میان شرکت‌های هوش مصنوعی رایج است، اما اغلب نتایج آزمایش‌ها منتشر نمی‌شوند. دلیل این پنهان‌کاری می‌تواند نگرانی از ادعای حقوقی تولیدکنندگان اصلی داده‌ها باشد. اگر مشخص شود کدام منابع تأثیر بیشتری داشته‌اند، ممکن است تولیدکنندگان محتوا خواستار جبران مالی شوند.

پژوهشگران امیدوارند افشای این اطلاعات گامی باشد به‌سوی شفافیت بیشتر، اعتباربخشی به منابع اصلی داده‌ها و طراحی ساختارهایی برای پرداخت منصفانه به تولیدکنندگان محتوا.

کد خبر ۲۱۲۰۴۰۱۳۱.۲۳۰

منبع: بیزینس اینسایدر

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *