Meta, 음악과 사운드 제작을 위한 생성 AI 출시 • The Register
홈페이지홈페이지 > 소식 > Meta, 음악과 사운드 제작을 위한 생성 AI 출시 • The Register

Meta, 음악과 사운드 제작을 위한 생성 AI 출시 • The Register

Apr 29, 2024

Meta는 수요일에 텍스트 설명에서 자동으로 사운드를 생성할 수 있는 세 가지 AI 모델 세트인 AudioCraft를 출시했습니다.

서면 메시지를 이미지나 더 많은 텍스트로 변환하는 생성 AI 모델이 계속해서 발전함에 따라 컴퓨터 과학자들은 기계 학습을 사용하여 다른 형태의 미디어를 만드는 방법을 모색하고 있습니다.

AI 시스템, 특히 음악에서는 오디오가 어렵습니다. 왜냐하면 소프트웨어는 몇 분에 걸쳐 일관된 패턴을 생성하는 방법을 배워야 하고 듣기에 재미있거나 즐거운 것을 생성할 만큼 충분히 창의적이어야 하기 때문입니다.

Team Meta는 "44.1kHz(음악 녹음의 표준 품질)로 샘플링된 몇 분 분량의 일반적인 음악 트랙은 수백만 개의 시간 간격으로 구성됩니다."라고 설명했습니다. 즉, 오디오 생성 모델은 인간 친화적인 트랙을 구축하기 위해 많은 데이터를 출력해야 합니다.

"비교해 보면 Llama 및 Llama 2와 같은 텍스트 기반 생성 모델에는 샘플당 단지 수천 개의 시간 단계를 나타내는 하위 단어로 처리된 텍스트가 제공됩니다."

Facebook의 거대 기업은 사람들이 AudioCraft를 사용하여 악기 연주 방법을 배우지 않고도 컴퓨터에서 생성된 사운드를 만드는 실험을 하는 것을 구상하고 있습니다. 툴킷은 MusicGen, AudioGen 및 EnCodec의 세 가지 모델로 구성됩니다.

MusicGen은 해당 텍스트 설명과 함께 Meta가 소유하거나 라이센스를 받은 20,000시간의 녹음에 대해 교육을 받았습니다. AudioGen은 음악보다는 음향 효과 생성에 더 중점을 두고 있으며 공개 데이터에 대한 교육을 받았습니다. 마지막으로 EnCodec은 오디오 신호를 충실도 높게 압축 및 압축 해제할 수 있는 손실이 있는 신경 코덱으로 설명됩니다.

Meta는 AudioCraft를 "오픈 소싱"하고 있으며 어느 정도 그렇다고 말했습니다. 모델을 생성 및 훈련하고 추론을 실행하는 데 필요한 소프트웨어는 오픈 소스 MIT 라이선스에 따라 제공됩니다. 이 코드는 무료(자유 및 무료 맥주와 같이) 및 상업용 응용 프로그램은 물론 연구 프로젝트에도 사용할 수 있습니다.

즉, 모델 가중치는 오픈 소스가 아닙니다. 상업적 사용을 특별히 금지하는 Creative Commons 라이센스에 따라 공유됩니다. Llama 2에서 본 것처럼 Meta가 오픈 소스에 관해 이야기할 때마다 작은 글씨를 확인하세요.

MusicGen 및 AudioGen은 입력 텍스트 프롬프트가 주어지면 사운드를 생성합니다. 여기 Meta의 AudioCraft 랜딩 페이지에서 "바람이 부는 휘파람"과 "귀를 사로잡는 멜로디, 열대 타악기, 경쾌한 리듬이 있는 팝 댄스 트랙, 해변에 딱 맞습니다"라는 설명으로 만들어진 짧은 클립을 들을 수 있습니다.

짧은 음향 효과는 사실적이지만 음악 같은 효과는 우리 의견으로는 좋지 않습니다. 히트곡보다는 나쁜 홀드 음악이나 엘리베이터 노래에 대한 반복적이고 일반적인 징글처럼 들립니다.

Meta 연구원들은 여기에 자세히 설명된 AudioGen이 원시 오디오를 일련의 토큰으로 변환하고 이를 다시 높은 충실도의 오디오로 변환하여 입력을 재구성함으로써 훈련되었다고 말했습니다. 언어 모델은 입력 텍스트 프롬프트의 조각을 오디오 토큰에 매핑하여 단어와 소리 간의 상관 관계를 학습합니다. MusicGen은 음향 효과보다는 음악 샘플에 대해 유사한 프로세스를 사용하여 훈련되었습니다.

"작업을 난공불락의 블랙박스로 유지하기보다는 이러한 모델을 개발하는 방법을 공개하고 연구자이든 음악 커뮤니티 전체이든 사람들이 쉽게 사용할 수 있도록 하는 것이 이러한 모델이 무엇을 할 수 있는지 이해하는 데 도움이 됩니다. 하고, 그들이 할 수 없는 것이 무엇인지 이해하고, 실제로 그것을 사용할 수 있는 권한을 부여받게 됩니다."라고 Team Meta는 주장했습니다.

"미래에 생성적 AI는 메타버스를 위한 세계를 구축하는 대규모 개발자, 음악가(아마추어, 전문가, 그렇지 않은 경우) 다음 작품을 작업 중이거나 창의적인 자산의 수준을 높이려는 중소기업 소유자입니다."

여기에서 AudioCraft 코드를 가져오고 여기에서 MusicGen을 실험하여 사용해 볼 수 있습니다. ®

우리에게 소식을 보내주세요