گوگل که مدتی قبل نابودی بشر در آینده به دست هوش مصنوعی را پیشبینی کرده بود، به تازگی از پروژه بلندپروازانه جدیدی برای توسعه یک مدل زبانی هوش مصنوعی خبر داد که ۱۰۰۰ زبان رایج دنیا را پوشش میدهد. این شرکت به عنوان اولین قدم خود در راستای این هدف، یک مدل هوش مصنوعی با پشتیبانی از بیش از ۴۰۰ زبان را معرفی کرد و آن را «گستردهترین پوشش زبانی که امروز در یک مدل گفتاری دیده میشود» دانست.
میتوان گفت که زبان و هوش مصنوعی همیشه مهمترین بخش محصولات گوگل بودهاند، اما پیشرفتهای اخیر در زمینه یادگیری ماشین یا به طور دقیقتر، توسعه مدلهای زبانی گسترده (LLM) چندمنظوره به تمرکز این شرکت روی این حوزهها اضافه کرده است. گوگل همین الان هم این مدلهای زبانی را در محصولاتی نظیر موتور جستجوی خود گنجانده است.
نواقص متعددی در مدلهای زبانی پیدا میشود؛ به عنوان مثال، در این مدلها باز هم اثر سوگیریهای اجتماعی غیراخلاقی نظیر نژادپرستی و بیگانههراسی به چشم میخورد یا امکان تجزیه و تحلیل زبان بر اساس حساسیت انسان مهیا نیست. حتی زمانی گوگل برخی از محققان خود را که مقالاتی با تمرکز روی این نواقص نوشته بودند، اخراج کرده بود.
با این حال، این مدلها توانایی انجام فعالیتهای زیادی را دارند؛ از تولید زبان (نظیر مدل GPT-3 متعلق به OpenAI) تا ترجمه (پروژه No Language Left Behind متا). در طرف دیگر، پروژه ۱۰۰۰ زبانه هوش مصنوعی گوگل نه روی کارکرد مشخصی، بلکه روی ایجاد سیستمی واحد با گستره دانش بالا از زبانهای جهان متمرکز است.
به گفته زوبین قهرمانی، معاون تحقیقات بخش هوش مصنوعی گوگل در گفتگو با وبسایت The Verge، این شرکت آمریکایی بر این عقیده است که با ساخت مدلی در این اندازه، انتقال کارکردهای هوش مصنوعی به زبانهایی که در فضای اینترنت و دیتاستهای آموزشی هوش مصنوعی مورد کمتوجهی قرار گرفتهاند (یا همان زبانهای دارای منابع کم) آسانتر از قبل خواهد شد.
او همچنین این نکته را خاطرنشان کرده است که با در اختیار داشتن مدل واحدی که در ارتباط با زبانهای متفاوت فراوانی بوده و بر پایه آنها تعلیم دیده است، عملکرد سیستم هوش مصنوعی در حوزه زبانهای دارای منابع کم بهبود پیدا میکند. البته با توجه به توضیحات او، گوگل برای پوشش هزار زبان قرار نیست هزار مدل مختلف را توسعه بدهد.
قهرمانی میگوید که زبانها از این جهت که از یکی به دیگری تکامل پیدا کردهاند و اشتراکاتی دارند، به ارگانیسمها شبیهاند. ضمن اینکه پیشرفتهای چشمگیری در زمینه «یادگیری بدون نمونه» (Zero-shot learning) را میتوان دید و تیم آنها با گنجاندن دادههای یک زبان جدید داخل مدل ۱۰۰۰ زبانه هوش مصنوعی گوگل میتوانند آنچه از یک زبان رایج با منابع فراوان تعلیم داده شده را به یک زبان دارای منابع کم ترجمه کنند.
دسترسی به دادهها یکی از چالشهای تعلیم تعداد زیادی زبان به حساب میآید و گوگل در این راستا تامین مالی مجموعهای از دادهها برای زبانهای دارای منابع کم را بر عهده میگیرد؛ از جمله این دادهها باید به صداهای ضبط شده و متون نوشته شده اشاره کرد. البته گوگل متذکر شده که هنوز تصمیم قطعی درباره حوزه کاربرد این مدل نگرفته است و فقط انتظار دارد در برخی از محصولات آن مثل گوگل ترنسلیت و زیرنویسهای یوتیوب کاربرد داشته باشد.
میتوان گفت که زبان و هوش مصنوعی همیشه مهمترین بخش محصولات گوگل بودهاند، اما پیشرفتهای اخیر در زمینه یادگیری ماشین یا به طور دقیقتر، توسعه مدلهای زبانی گسترده (LLM) چندمنظوره به تمرکز این شرکت روی این حوزهها اضافه کرده است. گوگل همین الان هم این مدلهای زبانی را در محصولاتی نظیر موتور جستجوی خود گنجانده است.
نواقص متعددی در مدلهای زبانی پیدا میشود؛ به عنوان مثال، در این مدلها باز هم اثر سوگیریهای اجتماعی غیراخلاقی نظیر نژادپرستی و بیگانههراسی به چشم میخورد یا امکان تجزیه و تحلیل زبان بر اساس حساسیت انسان مهیا نیست. حتی زمانی گوگل برخی از محققان خود را که مقالاتی با تمرکز روی این نواقص نوشته بودند، اخراج کرده بود.
با این حال، این مدلها توانایی انجام فعالیتهای زیادی را دارند؛ از تولید زبان (نظیر مدل GPT-3 متعلق به OpenAI) تا ترجمه (پروژه No Language Left Behind متا). در طرف دیگر، پروژه ۱۰۰۰ زبانه هوش مصنوعی گوگل نه روی کارکرد مشخصی، بلکه روی ایجاد سیستمی واحد با گستره دانش بالا از زبانهای جهان متمرکز است.
به گفته زوبین قهرمانی، معاون تحقیقات بخش هوش مصنوعی گوگل در گفتگو با وبسایت The Verge، این شرکت آمریکایی بر این عقیده است که با ساخت مدلی در این اندازه، انتقال کارکردهای هوش مصنوعی به زبانهایی که در فضای اینترنت و دیتاستهای آموزشی هوش مصنوعی مورد کمتوجهی قرار گرفتهاند (یا همان زبانهای دارای منابع کم) آسانتر از قبل خواهد شد.
او همچنین این نکته را خاطرنشان کرده است که با در اختیار داشتن مدل واحدی که در ارتباط با زبانهای متفاوت فراوانی بوده و بر پایه آنها تعلیم دیده است، عملکرد سیستم هوش مصنوعی در حوزه زبانهای دارای منابع کم بهبود پیدا میکند. البته با توجه به توضیحات او، گوگل برای پوشش هزار زبان قرار نیست هزار مدل مختلف را توسعه بدهد.
قهرمانی میگوید که زبانها از این جهت که از یکی به دیگری تکامل پیدا کردهاند و اشتراکاتی دارند، به ارگانیسمها شبیهاند. ضمن اینکه پیشرفتهای چشمگیری در زمینه «یادگیری بدون نمونه» (Zero-shot learning) را میتوان دید و تیم آنها با گنجاندن دادههای یک زبان جدید داخل مدل ۱۰۰۰ زبانه هوش مصنوعی گوگل میتوانند آنچه از یک زبان رایج با منابع فراوان تعلیم داده شده را به یک زبان دارای منابع کم ترجمه کنند.
دسترسی به دادهها یکی از چالشهای تعلیم تعداد زیادی زبان به حساب میآید و گوگل در این راستا تامین مالی مجموعهای از دادهها برای زبانهای دارای منابع کم را بر عهده میگیرد؛ از جمله این دادهها باید به صداهای ضبط شده و متون نوشته شده اشاره کرد. البته گوگل متذکر شده که هنوز تصمیم قطعی درباره حوزه کاربرد این مدل نگرفته است و فقط انتظار دارد در برخی از محصولات آن مثل گوگل ترنسلیت و زیرنویسهای یوتیوب کاربرد داشته باشد.
کد خبر ۲۱۵۰۱۰۸۱۴.۵۷۰