영상 신호 처리 vs (일반)신호 처리

영상처리를 음성신호처리의 관점에서 바라보게 되는데, 다루는 데이터의 크기라든가 처리 방법 말고도 여기에는 아주 큰 차이가 있다.

귀로 듣는 음성신호는 고막의 울림 (진폭)을 위주로 처리되어야 하는 것이고 눈으로 보는 화상신호는 빛의 밝기와 색깔(주파수)로 처리가 되어야 하는 것이다.

이게 무슨 소리인가 할 수 있는데, 우리가 귀로 듣는 것, 또 우리가 음성신호의 정보로 취급하는 것은 시간에 따른 진폭의 변화이다. 그러나 우리가 보는 것, 또 영상신호에서 정보로 취급하는 것은 순간적으로 취득한 빛의 세기와 주파수라는 것이다. 개념이 좀 이상한데 시간의 흐름을 정지시켜놓고 보면 음성신호는 그냥 진폭, 고막이 움직임의 정도에 불과하고 영상신호는 눈으로 볼 수 있는 영역에서 취득된 빛의 세기와 주파수란 것이다.

그러니까, 음성신호의 관점에서 영상신호를 바라보면 눈은 고성능의 spectrum analyzer가 된다. 우리는 우리의 두뇌가 음성신호를 처리하는 과정에서 spectrum analyzer와 같은 과정이 처리되긴 하지만 귀로 받아들이는 정보 그 자체가 그 결과가 되지 않는다. 신기하게도 눈에서 받아들이는 정보는 그 모든 pixel들이 빛의 파동을 specral analysis한 결과라는 것이다.

더욱 신기한 것은 빛의 정보를 매 pixel당 3개의 값으로 나타낸다는 것이다. 빛의 삼원색인 RGB에 대한 빛의 세기로 나타내기도 하고 YUV라고 해서 밝기와 색에 대한 정보 2가지 (U, V)로 나타낸다는 것이다. 빛의 색깔이란 것은 주파수라는 하나의 값으로 나타낼 수 있을 것 같지만 기계적으로는 2개 아닌 3개의 정보로 나누어 다룬다. 카메라 센서도 하나의 점을 3개의 (대부분의 센서는 4개:RGBG, 과거에는 RGB 필터가 붙은 3 CCD) 센서로 받는다.

음성신호와 연계해서 이해하기는 참 어렵다는 것이다. 아예 영상처리만 했다면 이게 지극히 당연할 수 있지만, 일반적인 신호처리를 위한 time-series만 봐오다보면 전혀 새로운 세계인 것이다.

단순히 신호의 차원의 개수 차이 뿐 아니라 신호 원 자체가 전혀 다르다. 사람이 그러한 감각계를 가지고 있다는 것도 신기한 노릇이고 말이다. 사람이나 동물이나 이 감각계는 동일한 방법으로 동작하고 있을텐데 그 민감도도 각각 다르다는 것도 재미있는 노릇이다. 이것을 진화과정에서 만들어진 차이라고 보기엔 정말로 넓고 다양하다.