본문 바로가기
스마트정보함

메타 AR,VR을 위한 AI 기반 음향 합성 모델 설계

by 한국스마트치료협회 2022. 6. 28.
728x90

증강현실(AR) 안경을 착용하고 메타버스의 파티에서 어울리거나

거실에서 홈 무비를 볼 때 음향은 몰입감을 높이고 사실적인 경험을 하는데 중요한 역할을 한다.

메타는 이러한 환경을 혼합현실(XR)과 가상현실(VR)에서 제공하기 위해

실제 환경과 같은 사실적이고 높은 음질을 제공하는 AI 모델을 구축하고 있다.

예를 들어 콘서트 음향이 큰 장소에서 들리는 것과 거실에서 들리는 것 사이에는 큰 차이가 있다.

물리적 공간의 구조, 소리가 나오는 위치 등의 요인들이

소리가 어떻게 들리는지를 결정하기 때문이다.

메타의 리얼리티 랩과 텍사스 오스틴 대학의 연구원들

공간 환경에 따라 사람의 말과 비디오의 소리가 어떻게 들릴지에 대한 시청각 이해를 위한

3가지 새로운 AI 모델을 공개했다.

1.시각음향매칭 모델

시각 음향 매칭(Visual Acoustic Matching) 모델의 경우 대상 환경의 이미지에

녹음된 오디오 클립을 입력하고 해당 환경에서 녹음된 것처럼 들리도록 클립을 변환할 수 있다.

이 모델은 동굴에서 녹음된 음성 오디오와 함께

레스토랑의 식당 이미지를 찍고 그 음성이 사진에 있는 레스토랑에서 녹음된 것처럼 만들 수 있다.

2.시각정보기반 잔향제거 모델

시각 정보 기반 잔향 제거(Visually-Informed Dereverberation) 모델

관찰된 소리, 공간의 시각적 신호들을 사용해 녹음된 환경에 따라 소리가 만드는 잔향들을 제거한다.

이 모델은 바이올린 콘서트가 열리는 기차역에서 기차역 주변에서 울려 퍼지는 잔향 없이 바이올린 소리를 추출할 수 있다.

3.비주얼보이스

비주얼보이스(VisualVoice)는

시각적 및 청각적 신호를 사용해 음성을 다른 배경 소리나 배경 음성과 분리한다.

더 나은 자막을 만들고 VR에서 파티에 어울리는 음악을 제공할 수 있다.

오디오가 장면과 일치하지 않는 비디오를 보게 되면

사람은 어지러움과 같은 통증을 느낄 수 있다는 연구조사가 있다고 한다.

인간의 인식에 큰 방해를 주기 때문이다.

하지만 과거에는 서로 다른 환경의 오디오와 비디오를 일치시키는 것은 어려운 과제였다.

이번에 메타가 개발한 AViTAR 모델은 이 어려움을 줄여주었다.

시각 음향 매칭 모델은 대상 이미지의 공간에 맞게 오디오를 조정한다.

아래 메타가 공개한 영상으로, 추가적인 설명을 담고 있습니다.

'메타의 혼합 및 가상 현실 경험에서 사운드를 더욱 사실적으로 만들기 위한 음향 합성 AI 모델을 설계'

 

 

메타, AR·VR을 위한 AI 기반 음향 합성 모델 공개 - AI타임스

증강현실(AR) 안경을 착용하고 메타버스의 파티에서 어울리거나 거실에서 홈 무비를 볼 때 음향은 몰입감을 높이고 사실적인 경험을 하는데 중요한 역할을 한다. 메타(Meta)는 이러한 환경을 혼합

www.aitimes.com

 

728x90

댓글