Im Jahr 2023 wird KI den Klang durch Generative Sound Waves revolutionieren und das Zeitalter des Sounds einleiten

Der Bereich der Audioproduktion entwickelt sich schnell, und die Arbeit mit den Schwerpunkten Computer Vision (CV) und Natural Language Processing (NLP) hat im vergangenen Jahr erheblich zugenommen. Dies hat Wissenschaftler auf der ganzen Welt dazu veranlasst, darüber nachzudenken, was große Sprachmodelle (LLMs) und Deep Learning zu diesem Thema beitragen könnten. Die neuesten Audiomodelle, die kürzlich veröffentlicht wurden, werden in diesem Artikel zusammen mit der Frage erörtert, wie sie zukünftige Studien auf diesem Gebiet erleichtern.
Das erste Modell heißt MusicLM und wurde von Wissenschaftlern von Google und IRCAM-Sorbonne Universite erstellt. Die von diesem Modell erzeugte Musik kann im Text als „eine entspannende Geigenmelodie, begleitet von einem verzerrten Gitarrenriff“ beschrieben werden. Das MusicLM-Modell kann die Tonhöhe und das Tempo einer gepfiffenen oder gesummten Melodie modifizieren, um sie an den Tenor eines betitelten Textes anzupassen, da es speziell mit vortrainierten Modulen von w2v-BERT, SoundStream und MuLan trainiert wurde.
Google schlägt auch SingSong vor, ein System, das Instrumentalmusik-Audio erzeugen kann, um mit dem Eingangsvokal-Audio im Gleichschritt übereinzustimmen. Quellentrennung und Fortschritte bei der generativen Audiomodellierung, zwei bedeutende Bereiche der Musiktechnologie, werden beide von SingSong genutzt. Das Team modifizierte AudioLM, um Instrumentalstimmen mit gegebenen Stimmen zu erzeugen, indem es es anhand der quellengetrennten Daten unter Verwendung einer im Handel erhältlichen Quellentrennungstechnik trainierte. Die Forscher schlugen zwei Featureisierungstechniken vor, um die Qualität von isoliertem Gesang um 55 % im Vergleich zur AudioLM-Basisverbesserung zu steigern.
Moûsai ist ein textbedingtes kaskadierendes Diffusionsmodell, das es uns ermöglicht, 48-kHz-Stereomusik mit langem Kontext zu erstellen, die über die Minute hinweg kontextabhängig ist. Es wurde in Zusammenarbeit von Forschenden der ETH Zürich und des Max-Planck-Instituts für Intelligente Systeme entwickelt. Das Moûsai-Modell wurde von den Forschern unter Verwendung einer zweistufigen kaskadierenden Diffusion entwickelt, die mit Ressourcen betrieben und gelehrt werden kann, die typischerweise in Hochschulen zu finden sind. Jede Phase des Modells dauert etwa eine Woche, um auf einer A100-GPU zu trainieren.
AudioLDM, ein TTA-System, das kontinuierliche LDMs verwendet, um eine hochmoderne Generierungsqualität zu erreichen, hat Vorteile in Bezug auf Recheneffizienz und textkonditionierte Audiomanipulation, wurde von der University of Surrey in Partnerschaft mit dem Imperial College London eingeführt. Diese Methode ist in der Lage, LDMs ohne die Verwendung von Sprach-Audio-Paaren zu trainieren, indem sie lernt, wie man das Audio zuvor in einem latenten Raum erzeugt.
Die vier neuen Modelle MusicLM, SingSong, Moûsai und AudioLDM, die kürzlich auf den Markt gebracht wurden, erleichtern die weitere Forschung in diesem Bereich erheblich. Die jüngsten Fortschritte in der Audio-Erstellung sind aufregend. Jedes Modell hat seine Strategie und eine Reihe von Vorteilen, und zukünftige Entwicklungen auf dem Gebiet werden als Ergebnis seiner Verwendung antizipiert. Es gibt unzählige Vorteile, die Deep Learning und Large Language Models (LLMs) für die Audioerstellung bieten können, und weitere Innovationen werden wahrscheinlich bald folgen.