تولید ترانه و صداهای طبیعی با استفاده از هوش مصنوعی

انتشار: 16 آبان 1401
کد خبر: 215010816.200

محققان گوگل، نوعی هوش‌ مصنوعی تولید‌ کرده‌اند که می‌تواند بدون کمک انسان، صداهای پیچیده‌ای مانند موسیقی پیانو یا گفتار طبیعی افراد را تولید کند.
این هوش مصنوعی فقط با شنیدن چند ثانیه صدا، باقی صدا را به‌گونه‌ای تولید می‌کند که از صدای اصلی قابل تشخیص نیست.
پیش از این هم محققان توانسته بودند با استفاده از هوش مصنوعی، اصواتی را تولید کنند. از نمونه‌های آن می‌توان به دستیارهای خانگی چون الکسا (Alexa) اشاره کرد که با استفاده از پردازش زبان طبیعی، اصوات را تولید می‌کند یا سیستم‌های موسیقی هوش مصنوعی مانند جوک‌باکس (Jukebox) که عالی کار می‌کنند، اشاره کرد اما تمام این ر‌وش‌ها می‌توانند داده‌های مبتنی بر متن و برچسب‌گذاری را به صوت و آهنگ تبدیل کنند و به همین دلیل به دخالت انسان نیاز دارند که روند فرآیند را طولانی می‌کند.
سیستم جدید هوش‌ مصنوعی محققان گوگل که اودیواِل‌اِم (AudioLM) نام دارد، نیازی به رونویسی یا برچسب‌گذاری ندارد.
در این روش پایگاه‌ داده‌ها وارد برنامه سیستم هوش مصنوعی شده و این سیستم با استفاده از یادگیری ماشین، فایل‌های صوتی را به قطعه‌های صوتی به نام «توکن یا نشانه» تبدیل می‌کند.
این هوش مصنوعی تمام این کار را بدون این‌که اطلاعات زیادی را بسوزاند، انجام می‌دهد سپس این فایل‌های نشانه‌گذاری‌‌شده به یک مدل یادگیری ماشین تغذیه می‌شوند و این هوش مصنوعی با استفاده از پردازش زبان طبیعی، الگوهای صوتی را می‌آموزد. برای تولید صدا با استفاده از این سامانه هوشمند،‌ فقط چند ثانیه از صدایی به اودیواِل‌اِم داده می‌شود و این هوش مصنوعی اتفاق‌های بعدی را پیش‌بینی می‌کند. این فرآیند شبیه مدل‌های زبانی مانند GPT-۳ است که جملات و کلماتی که به‌دنبال هم می‌آیند را پیش‌بینی می‌کند.
هوش مصنوعی اودیواِل‌اِم می‌تواند صداها را باکیفیت بسیار بالا و حتی بهتر از اصل خودشان تولید کند. به لطف این قابلیت آن دسته از کلید‌های صوتی که با کمک این هوش مصنوعی تولید شده است بسیار طبیعی به نظر می‌رسند.
این هوش مصنوعی می‌تواند الگوی موسیقی‌های ساخت انسان را با دقت بالا و طبیعی بازتولید کند. اودیواِل‌اِم برای تولید صدا، تعداد بسیاری از ارتعاشات ظریف هر نتی را که با زدن کلید‌های پیانو شنیده می‌شود، دریافت کرده و با استفاده از این داده‌ها، موسیقی پیانوی واقعی را با حفظ ریتم و هارمونی آن بازتولید ‌کند.
قابلیت این هوش مصنوعی به موسیقی محدود نیست. از آنجا که اودیواِل‌اِم با استفاده از مجموعه‌ای از اصوات گفتاری انسان و جملاتی که بیان و ضبط شده،‌ آموزش دیده است.
این هوش مصنوعی می‌تواند کلامی منطبق با لهجه و آهنگ گفتار فرد اصلی تولید کند. البته این سیستم هوشمند هنوز نمی‌تواند جملات را به‌شکلی معنی‌دار دنبال هم بیاورد اما با بررسی پایگاه داده‌ها می‌تواند پیش‌بینی کند چه مجموعه‌ای از اصوات همراه با هم رخ می‌دهند و سپس آنها را بازتولید کند. توانایی جالب دیگر این هوش مصنوعی این است که می‌تواند مکث و تعجب بین زبان‌های گفتاری را هم درک کند.
هوش‌مصنوعی اودیواِل‌اِم با این توانایی شگفت‌انگیز خود می‌تواند در خدمت ساخت موسیقی زمینه فیلم‌های ویدئویی باشد یا دسترسی به اینترنت ربات‌ هایی را که در بخش‌ مراقبت‌های بهداشتی و سلامت کار می‌کنند، بهبود بخشد.
محققان گوگل امیدوارند در آینده این هوش مصنوعی را طوری آموزش دهند که بتواند صدای انواع آلات موسیقی متفاوت یک گروه موسیقیایی را که همنوازی می‌کنند، تشخیص دهد یا صداهای مختلفی را که در جنگل‌ها شنیده می‌شود، شناسایی و تقلید کند.