Stereo imaging

  1. 들어가며

일부의 인터넷에 돌고 있는 article을 읽어보면 stereo imaging에 대해 별다른 얘긴 없는 것 같다.

내가 알고 싶은 것은

1) 어떠한 조건에서 양쪽 귀를 통해 들려오는 소리가 mono 스럽다 아니면 mono 스럽다라고 판단하는가,

2) 어떻게 하면 mono source로부터 stereo 스러운 source를 얻어내는가?

이다.

이미 많은 사람들이 stereo image를 얻기 위해 많은 플러긴을 사용하고 있다. 과거에는 그런 처리를 해주는 외장 이펙트들도 있었다.

  1. 어떤 소리를 mono스럽다고 받아들이는가?

양쪽 귀로 똑같은 소리가 들어온다고 할 때, 우린 그것을 mono 스럽다고도 하고 음장 (sound field?)감이 결여된 사운드라고 하기도 하는 것 같다. 다른 말로 표현하면 양쪽귀로 들어오는 소리의 correlation이 매우 높은 소리라고 표현할 수 있다.

신기한 것은 우리의 뇌가 좌우로 나뉘어져있고, 양쪽 귀는 각각의 뇌에 연결되어있는데 양쪽 귀를 통해 들어온 소리가 유사도가 높은지 아닌지를 스스로 판단해서 알 수 있다는 사실에 놀라게 된다. 기계적으로는 복잡한 연산인데 우리의 두뇌에서는 엄청나게 많은 양의 유사도를 측정하는 연산들이 끊임없이 일어나고 있으니 말이다.

그러나, 신기하게도 우리가 자연에서 마주하는 소리들은 하나의 음원에서 출발한 소리다. 다만 그것들의 위치가 공간상에 흩어져있기에 우리는 그것이 하나의 음원에서 나온 소리지만 양쪽 귀로 절대 같은 소리로 듣지 않는다. 무향실에 들어가 있는 상황이라도 정말로 이상적인 위치에 놓여서 양쪽 귀로 정확히 같은 소리가 들려오게 하는 조건이 아니라면 어떻게든 다르게 들려올 수 밖에 없다 (위상이 다르든 경로차로 인해 시간차가 있든). 이것을 음향의 반사 효과 및 배경 잡음까지 있는 실생활의 영역으로 넓혀보면 엄청나게 복잡하게 되는 것이다.

  1. Stereo imaging

양쪽 귀로 들어오는 신호를 받아들일 때 사람은 이 두 개의 신호의 유사도를 판단한다고 했다. 유사도가 높을 수록 재미없고 답답한 소리가 되는 것이다. 그런데, 두 개의 소리가 서로 전혀 연관이없는 컨텐츠의 소리라면 아마도 짜증이 날 것이다.

결국, 사람은 동일한 컨텐츠의 소리이되 짧은 구간동안의 유사도는 높지 않은 그런 소리를 원하는 것이라고 생각할 수 있다. 모노 음원은 단순하게 패닝만 한다고 해서 스테레오 음원처럼 들리지 않고, 이미 얘기했던 바와 같이 시간차를 가지고 들어왔다고 하더라도 어떤 임장감만을 줄 뿐이지 양쪽 귀로 탁 트인 느낌을 주진 않는다.

사람이 어떤 좋은 공연장에서 라이브 음악을 듣는다고 가정하면, 무대에 놓인 악기들의 위치가 다 다르고, 각각의 악기들이 내는 소리의 주파수 영역이 각기 다르기 때문에 양쪽 귀로 들어오는 소리는 하나의 주파수 별로 좌우측 채널에 주어지는 소리의 시간 차가 다른 소리가 된다.

흔히 트윈기타 시스템의 밴드가 나왔을 때도 같은 기타 배킹을 둘이 동시에 연주함으로써 듣는 사람으로 하여금 소리가 풍부하다라는 느낌을 주었는데, 같은 컨텐츠의 소리이지만 두 주자가 시간상으로 완벽하게 동일한 시점에서 같은 소릴 낼 수 없으므로 풍부한 소릴 만들어냈던 것이다.

즉, 사람은 하나의 음원이라고 하더라도 그 음원이 시간/주파수/위상의 성질이 적당히 교란되어 원래 음원과의 유사도가 낮아지면 풍부한 소리로 인식하게 될 수 있단 말이다.

그것을 음향 이펙트를 만드는 사람들의 관점에서는 위상을 교란하거나 시간차를 만들어내는 것으로 생각이 되는 것으로 보여진다. 즉, Stereo 음장을 얻기 위한 일련의 software들을 보면 몇 가지 작업을 하고 있는데, 대략 정리해보면 다음과 같다.

1) Modulation (chorus)

2) delay (short time)

1)과 2)를 일종의 time-varying한 FM wave를 이용해서 변화시킴으로써 하나의 소리를 2개의 다른 버전으로 만들어내는 것이다. FM wave라고 말한 것은 sine wave와 같은 시변 성분을 위상 term 혹은 주파수 term에 넣어서 또 다른 sinusoidal 신호를 만들어내고, 그것을 본래의 신호에 곱한다는 (modulation) 말이 된다. 이것을 도플러 효과니 다양한 용어로 재해석할 수 있다. 어쨌든, 그 결과로 얻어진 소리는 시간에 따라 변화하는 위상차 때문에 주파수가 미세하게 오르락 내리락한다는 것이다. 각각의 채널에 이 성질을 미묘하게 다르게 준 뒤에 들어보면, 같은 소리이긴 하지만 cross correlation이 낮아서 귀로 듣기에 스테레오 음상을 주는 소리가 된다.

다소 아쉬운 것은 사람의 뇌가 상당히 민감해서 어떠한 규칙성을 가지고 변화하는 위상이나 주파수에도 곧바로 인위적인 느낌을 받게 되므로 되도록이면 랜덤하게 변화하는 것이 좋지 않을까 한다.

대부분 VCO로 control 하기 때문에 과거 음향기기에서 stereo 효과는 이것을 통해 만들었고, 지금도 많은 소프트웨어에서 그렇게 하고 있다.

  1. 가정용 mix에서..

대개는 여러 개의 악기를 사용한다고 하더라도 일반적인 panner를 사용해서 좌우측 음량 조절로 위치감을 주는 게 전부이고, 그렇다고 해서 어떤 스테레오 음상을 얻진 못한다. 스테레오로 녹음된 소스를 이용하고, 또는 동일한 소리를 좌우측으로 두번 녹음하는 것 외엔 별다른 효과를 내지 못한다.

그렇다면, Spatial panner를 사용하면 어떨까?