محققان گوگل، نوعی هوش مصنوعی تولید کردهاند که میتواند بدون کمک انسان، صداهای پیچیدهای مانند موسیقی پیانو یا گفتار طبیعی افراد را تولید کند.
این هوش مصنوعی فقط با شنیدن چند ثانیه صدا، باقی صدا را بهگونهای تولید میکند که از صدای اصلی قابل تشخیص نیست.
پیش از این هم محققان توانسته بودند با استفاده از هوش مصنوعی، اصواتی را تولید کنند. از نمونههای آن میتوان به دستیارهای خانگی چون الکسا (Alexa) اشاره کرد که با استفاده از پردازش زبان طبیعی، اصوات را تولید میکند یا سیستمهای موسیقی هوش مصنوعی مانند جوکباکس (Jukebox) که عالی کار میکنند، اشاره کرد اما تمام این روشها میتوانند دادههای مبتنی بر متن و برچسبگذاری را به صوت و آهنگ تبدیل کنند و به همین دلیل به دخالت انسان نیاز دارند که روند فرآیند را طولانی میکند.
سیستم جدید هوش مصنوعی محققان گوگل که اودیواِلاِم (AudioLM) نام دارد، نیازی به رونویسی یا برچسبگذاری ندارد.
در این روش پایگاه دادهها وارد برنامه سیستم هوش مصنوعی شده و این سیستم با استفاده از یادگیری ماشین، فایلهای صوتی را به قطعههای صوتی به نام «توکن یا نشانه» تبدیل میکند.
این هوش مصنوعی تمام این کار را بدون اینکه اطلاعات زیادی را بسوزاند، انجام میدهد سپس این فایلهای نشانهگذاریشده به یک مدل یادگیری ماشین تغذیه میشوند و این هوش مصنوعی با استفاده از پردازش زبان طبیعی، الگوهای صوتی را میآموزد. برای تولید صدا با استفاده از این سامانه هوشمند، فقط چند ثانیه از صدایی به اودیواِلاِم داده میشود و این هوش مصنوعی اتفاقهای بعدی را پیشبینی میکند. این فرآیند شبیه مدلهای زبانی مانند GPT-۳ است که جملات و کلماتی که بهدنبال هم میآیند را پیشبینی میکند.
هوش مصنوعی اودیواِلاِم میتواند صداها را باکیفیت بسیار بالا و حتی بهتر از اصل خودشان تولید کند. به لطف این قابلیت آن دسته از کلیدهای صوتی که با کمک این هوش مصنوعی تولید شده است بسیار طبیعی به نظر میرسند.
این هوش مصنوعی میتواند الگوی موسیقیهای ساخت انسان را با دقت بالا و طبیعی بازتولید کند. اودیواِلاِم برای تولید صدا، تعداد بسیاری از ارتعاشات ظریف هر نتی را که با زدن کلیدهای پیانو شنیده میشود، دریافت کرده و با استفاده از این دادهها، موسیقی پیانوی واقعی را با حفظ ریتم و هارمونی آن بازتولید کند.
قابلیت این هوش مصنوعی به موسیقی محدود نیست. از آنجا که اودیواِلاِم با استفاده از مجموعهای از اصوات گفتاری انسان و جملاتی که بیان و ضبط شده، آموزش دیده است.
این هوش مصنوعی میتواند کلامی منطبق با لهجه و آهنگ گفتار فرد اصلی تولید کند. البته این سیستم هوشمند هنوز نمیتواند جملات را بهشکلی معنیدار دنبال هم بیاورد اما با بررسی پایگاه دادهها میتواند پیشبینی کند چه مجموعهای از اصوات همراه با هم رخ میدهند و سپس آنها را بازتولید کند. توانایی جالب دیگر این هوش مصنوعی این است که میتواند مکث و تعجب بین زبانهای گفتاری را هم درک کند.
هوشمصنوعی اودیواِلاِم با این توانایی شگفتانگیز خود میتواند در خدمت ساخت موسیقی زمینه فیلمهای ویدئویی باشد یا دسترسی به اینترنت ربات هایی را که در بخش مراقبتهای بهداشتی و سلامت کار میکنند، بهبود بخشد.
محققان گوگل امیدوارند در آینده این هوش مصنوعی را طوری آموزش دهند که بتواند صدای انواع آلات موسیقی متفاوت یک گروه موسیقیایی را که همنوازی میکنند، تشخیص دهد یا صداهای مختلفی را که در جنگلها شنیده میشود، شناسایی و تقلید کند.
این هوش مصنوعی فقط با شنیدن چند ثانیه صدا، باقی صدا را بهگونهای تولید میکند که از صدای اصلی قابل تشخیص نیست.
پیش از این هم محققان توانسته بودند با استفاده از هوش مصنوعی، اصواتی را تولید کنند. از نمونههای آن میتوان به دستیارهای خانگی چون الکسا (Alexa) اشاره کرد که با استفاده از پردازش زبان طبیعی، اصوات را تولید میکند یا سیستمهای موسیقی هوش مصنوعی مانند جوکباکس (Jukebox) که عالی کار میکنند، اشاره کرد اما تمام این روشها میتوانند دادههای مبتنی بر متن و برچسبگذاری را به صوت و آهنگ تبدیل کنند و به همین دلیل به دخالت انسان نیاز دارند که روند فرآیند را طولانی میکند.
سیستم جدید هوش مصنوعی محققان گوگل که اودیواِلاِم (AudioLM) نام دارد، نیازی به رونویسی یا برچسبگذاری ندارد.
در این روش پایگاه دادهها وارد برنامه سیستم هوش مصنوعی شده و این سیستم با استفاده از یادگیری ماشین، فایلهای صوتی را به قطعههای صوتی به نام «توکن یا نشانه» تبدیل میکند.
این هوش مصنوعی تمام این کار را بدون اینکه اطلاعات زیادی را بسوزاند، انجام میدهد سپس این فایلهای نشانهگذاریشده به یک مدل یادگیری ماشین تغذیه میشوند و این هوش مصنوعی با استفاده از پردازش زبان طبیعی، الگوهای صوتی را میآموزد. برای تولید صدا با استفاده از این سامانه هوشمند، فقط چند ثانیه از صدایی به اودیواِلاِم داده میشود و این هوش مصنوعی اتفاقهای بعدی را پیشبینی میکند. این فرآیند شبیه مدلهای زبانی مانند GPT-۳ است که جملات و کلماتی که بهدنبال هم میآیند را پیشبینی میکند.
هوش مصنوعی اودیواِلاِم میتواند صداها را باکیفیت بسیار بالا و حتی بهتر از اصل خودشان تولید کند. به لطف این قابلیت آن دسته از کلیدهای صوتی که با کمک این هوش مصنوعی تولید شده است بسیار طبیعی به نظر میرسند.
این هوش مصنوعی میتواند الگوی موسیقیهای ساخت انسان را با دقت بالا و طبیعی بازتولید کند. اودیواِلاِم برای تولید صدا، تعداد بسیاری از ارتعاشات ظریف هر نتی را که با زدن کلیدهای پیانو شنیده میشود، دریافت کرده و با استفاده از این دادهها، موسیقی پیانوی واقعی را با حفظ ریتم و هارمونی آن بازتولید کند.
قابلیت این هوش مصنوعی به موسیقی محدود نیست. از آنجا که اودیواِلاِم با استفاده از مجموعهای از اصوات گفتاری انسان و جملاتی که بیان و ضبط شده، آموزش دیده است.
این هوش مصنوعی میتواند کلامی منطبق با لهجه و آهنگ گفتار فرد اصلی تولید کند. البته این سیستم هوشمند هنوز نمیتواند جملات را بهشکلی معنیدار دنبال هم بیاورد اما با بررسی پایگاه دادهها میتواند پیشبینی کند چه مجموعهای از اصوات همراه با هم رخ میدهند و سپس آنها را بازتولید کند. توانایی جالب دیگر این هوش مصنوعی این است که میتواند مکث و تعجب بین زبانهای گفتاری را هم درک کند.
هوشمصنوعی اودیواِلاِم با این توانایی شگفتانگیز خود میتواند در خدمت ساخت موسیقی زمینه فیلمهای ویدئویی باشد یا دسترسی به اینترنت ربات هایی را که در بخش مراقبتهای بهداشتی و سلامت کار میکنند، بهبود بخشد.
محققان گوگل امیدوارند در آینده این هوش مصنوعی را طوری آموزش دهند که بتواند صدای انواع آلات موسیقی متفاوت یک گروه موسیقیایی را که همنوازی میکنند، تشخیص دهد یا صداهای مختلفی را که در جنگلها شنیده میشود، شناسایی و تقلید کند.
کد خبر ۲۱۵۰۱۰۸۱۶.۲۰۰