| 인물 머리 부분의 추적기술 | 2011.03.25 |
처음으로 \r\n카메라의 입력 영상을 이용해 인물 머리 부분이나 얼굴을 추적하는 기술에 거는 기대는 크다. 감시 카메라가 공공시설이나 점포 등에 보급됨에 따라 감시 카메라 영상을 이용해 인물 머리 부분을 추적함으로써 수상한 사람의 검출·발견과 고객의 행동 분석에 근거한 마케팅으로의 활용등의 시도가 보고되고 있다. 이는 기존 감시 카메라 영상이 어떤 사건이 발생했을 때에 처음으로 활용되는데 대해 감시 카메라 영상을 일상적으로 그리고 적극적으로 이용하려는 시도이며, 향후 발전이 기대되는 분야이기도 하다. 또한, 얼굴 추적은 사용자 주시 방향의 계측기술로써 인터페이스 응용이 기대될 뿐만 아니라 머리 부분의 자세 계측을 통해 운전자의 졸음운전과 곁눈질 운전을 경고하기 위한 시선의 검출, 상대의 감정을 추정하기 위한 표정의 계측 등 얼굴을 보다 상세하게 관찰하기 위한 기반기술로의 활용도 가능하다. \r\n
목, 코, 입 등의 얼굴 부위가 식별 가능한 해상도로 인물 머리 부분이 관찰되는 경우에는 얼굴 부위를 특징점으로 한 모델 베이스의 방법을 취하는 경우가 많다. 예를 들어, 높은 점들은 목, 코, 입 등의 얼굴 부위가 끝나는 점을 특징점으로써 인물 머리 부분의 3차원 위치와 자세(roll, yaw, pitch)를 추적하고 있다. 그들의 방법에서는 더욱이 입을 열거나 미간을 찌푸리거나 하는 얼굴의 변형을 모델화함으로써 자세의 변동뿐만 아니라, 표정의 변화에 대해서도 정밀한 추적을 실현하고 있다(그림 1). \r\n이와 관련해 천정에 설치된 감시 카메라 등에 의해 광범위로 인물을 관찰하는 경우에는 얼굴 부위의 식별이 곤란해지기 때문에 모습 기반의 수법을 취하는 경우가 많다. 일반적으로 얼굴 부위의 위치 등 형상 특징을 정확하게 계측할 수 있다면 자세 추정 측면에서의 정확도는 모델 베이스 기법이 우수한 경우가 많지만 기존 감시 카메라 설치 상황에서 상정되는 인물의 머리 부분이 20×20 화소 정도의 저해상도로 관찰되는 경우나 후두부 등의 형상 특징이 적은 경우에도 추적을 계속하려면 모습 기반의 방법이 적합하다고 여겨진다. 여기에서는 모습 기반의 추적수법의 예로써 얼굴 검출에 이용되는 식별기와 추적 알고리즘의 대표 예인 파티클 필터를 통합하여 얼굴 방향을 포함한 인물 머리 부분을 추적하는 수법을 소개한다. \r\n파티클 필터 \r\n카메라 영상을 이용한 대상의 추적에서는 지금까지 많은 수법이 제안되고 있지만, 최근 민시프트와 함께 일반적인 추적 수법이 파티클 필터이다. 파티클 필터는 입자 필터나 Condensation이라고도 불리며 위치나 자세 등의 상태량과 우도(尤度)를 가지는 다수의 샘플군에 의해 이산(離散)적인 확률 밀도로 추적 대상을 표현하고 운동 모델을 이용해 전파시킴으로써 정밀한 추적을 실현하는 방법이다. \r\n특히, 민시프트가 커널(kernel) 밀도 추정에 근거해 추적 대상의 확률 밀도 분포의 극대치를 탐색하기 때문에 오류를 수정할 수 없는 추적 수법인데 반해 파티클 필터는 확률 밀도 분포의 다봉성(多峰性)을 유지한 채로 추적을 계속할 수 있는 말하자면 오류를 수정할 수 있는 가능성을 지닌 추적 수법이다. 파티클 필터의 개념을 그림 3을 이용해 간단하게 소개한다. 파티클 필터에서는 인물 머리 부분의 확률 밀도 분포를 중량감 샘플 집합으로 표현한다(예를 들면, 그림 2의 Step 1에서는 중앙보다 약간 좌측으로 머리 부분이 존재할 확률이 제일 높고 다음으로 중앙 보다 약간 우측으로 머리 부분이 존재할 확률이 높다는 것을 나타내고 있다). 인물 머리 부분 위치를 하나로 결정하는 경우에는 가장 큰 중량감을 가지는 샘플의 위치(확률 밀도 분포가 가장 높은 부분)나 샘플 위치의 중량감 평균(기대치)으로 나타나는 부분을 그 시각의 머리 부분 위치로 한다. 추적은 시각 t-1에서의 머리 부분의 확률 밀도 분포에 따라서 새로운 샘플을 추출(Step 2)해서 예측되는 이동 방향에 따라서 이동(Step 3)시켜 그 샘플의 위치에 머리 부분이 존재하는지의 여부를 카메라를 이용한 관찰에 의해서 평가해 시각 t의 중량감 샘플 집합을 얻는다(Step 4). 이 프로세스를 순서대로 반복함으로써 머리 부분의 추적이 실현된다. \r\n여기서 파티클 필터의 추적 성능을 결정하는 중요한 요소가 되는 것이 추적 대상 움직임의 예측에 이용되는 운동 모델과 예측한 위치에 머리 부분이 존재하는지의 여부를 평가하는 수법이다. 운동 모델에 의한 예측 정확도가 높으면 적은 샘플로 효율적으로 계산 비용을 억제해 추적할 수 있지만 움직임이 예측과 크게 빗나갔을 경우에는 놓칠 가능성이 높아진다. 또한, 관측에 의한 우도(尤度) 평가의 정확도가 높으면 위치나 자세의 추적 정확도가 높아져 부분 가림 등에 대한 강건성(强健性)도 향상된다. \r\n운동 모델은 대상의 움직임을 예측할 수 없다고 하여 랜덤 워크 모델을 이용하는 경우나 등속 직선운동을 가정하는 경우가 많아 다음에서 말하는 방법에서는 옵티컬 흐름에 근거한 운동 모델을 이용하고 있다. 한층 더 발전적인 방법으로써는 대상의 형상 변화와 운동과 관련된 것을 학습해 추적 대상의 형상 변화로부터 운동을 예측하는 모델이나 파티클 필터의 마르코프 과정의 제약을 완화하고 과거의 운동 이력과의 유사성을 이용해 운동을 예측하는 모델 등이 있다(그림 3). \r\n관측에 의한 우도(尤度) 평가에는 평이한 것으로 컬러 히스토그램이나 윤곽의 휘도 변화의 유사성 등이 이용되는 것이 많다. 다음에서는 우도(尤度) 평가를 고도화한 예로써 AdaBoost 식별기를 이용하는 예를 소개하지만 그 밖에도 서포트 벡터 머신을 이용하는 것과 템플릿 매칭에 의하는 것 등이 있다. \r\n
파티클 필터와 식별기의 통합에 의한 인물 머리 부분 추적 \r\n파티클 필터에 의한 인물 두부 추적에서는 각 샘플의 우도(尤度)(머리 부분 같은 것)를 카메라 영상에 근거해 평가하지만 이것은 종래 컬러 히스토그램이나 윤곽의 휘도 변화의 유사성 등이 이용되는 것이 많았다. 그러나 이러한 단순한 평가 방법은 조명 변동이나 복잡한 배경 하에 있어서의 인물 추적에서는 충분하지 않고 추적 성능의 향상과 동시에 고정확도의 평가 방법이 요구된다. 한편, 최근 Viola와 Jones에 의한 얼굴검출 수법이 높은 검출 성능 때문에 널리 이용되고 있다. 그들은 Haar-like 특징으로 불리는 서로 이웃하는 구형 영역의 명도 차이를 특징량으로써 AdaBoost 학습에 의해 식별기를 구축하고 이것을 영상 전체에 망라하도록 식별 대상 영역의 크기와 위치를 변화시켜 적용함으로써 영상 속의 얼굴을 검출하고 있다. 그러나 시계열 화상을 이용한 추적 범위에 대해서 생각하면 화면 전체를 각 프레임으로 순차 탐색하는 것은 효율적이지 않다. 그 때문에 파티클 필터의 샘플 평가에 이 식별기를 응용해서 탐색 범위를 한정하는 것이 유효하다고 생각할 수 있다. \r\n그래서 저자들은 파티클 필터의 틀에서 AdaBoost 식별기를 이용해 샘플을 평가함으로써 추적을 실시하는 방법을 고안했다. 그림 4에 나타내듯이 가장 기본적인 AdaBoost 학습에 의한 얼굴 식별기에서는 여러 식별기의 출력의 가중화를 계산해 그 결과를 한계점으로 분류하는 것으로 얼굴인지 아닌지를 판정한다. 이 방법에서는 이 한계점으로 분류하기 전의 수치를 샘플의 평가치로써 이용하는 것을 생각한다. 인물의 머리 부분 주변에서의 평가치의 분포를 계측한 것이 그림 5(a)이다. 인물의 머리 부분 중심 부근에서는 높은 수치가 되고 멀어지면 낮은 수치가 되는 것을 알 수 있다. 그림 5(b)는 윤곽의 유사성에 의한 평가치의 분포이지만 이에 비해 식별기에 의한 평가(그림 5(a))는 인물 머리 부분 중심 부근만 평가치가 높고 그 외에서는 똑같이 낮아지고 있어 정확도 높은 평가가 가능하다는 것을 알 수 있다. \r\n
이 때, 각각의 식별기의 평가치는 대응하는 머리 부분의 방향에서 인물 머리 부분이 관찰됐을 때에 높은 수치가 되며 대응하지 않는 방향일 때는 낮은 수치가 된다. 그 때문에 예측된 샘플이 올바른 방향의 정보를 가지고 있을 때만 샘플에 높은 평가치를 줄 수 있다. 이와 같이 머리 부분의 방향이 변화해도 대응하는 몇 개의 식별기가 높은 평가치를 얻기 위해 추적을 계속할 수 있음과 동시에 머리 부분의 대략적인 방향도 추정할 수 있다. 단 여기에서는 각 식별기 간의 평가 척도를 갖추기 위해 Platt의 수법을 이용해 식별기 출력의 교정이 가능하다. \r\n
이 방법을 이용해 인물 머리 부분을 추적한 결과를 그림 7, 그림 8에 나타낸다. 이 방법에서는 추적하는 상태량을 영상 속의 위치 좌표나 크기가 아니라 실제 환경에서의 인물 머리 부분의 3차원 위치와 방향으로 추적함으로써 시야를 공유하는 복수의 카메라를 이용해 3차원 추적이 가능하다. 그래서 실험은 인물이 두부의 방향을 바꾸면서 관측 영역 내를 걸어 굽힘과 폄 동작을 실시했을 때의 머리 부분의 3차원 위치와 방향을 추적했다. 그림 7에 있어서 두부 위치의 추정 결과는 직사각형으로 표시해 각 샘플을 평가치가 높을수록 채도가 높아지는 점으로 나타내고 있다. 이 때, 점의 색은 선택된 식별기의 종류를 나타내고 있으며 직사각형의 색은 추정된 각 카메라에서 본 인물 머리 부분의 방향을 나타내고 있다. \r\n그림 7로부터 거의 정확하게 인물 머리 부분의 중심을 추적하고 있다는 것을 알 수 있다. 또 한 명의 인물 머리를 추적했을 경우 처리는 합계 30ms 정도로 완료할 수 있어 비디오 프레임 레이트에서의 추적이 가능하다. 또한, 추적 정확도를 정량적으로 조사하기 위해서 수작업으로 얻은 머리 부분 위치와 추적 결과의 궤적을 그림 8에 나타낸다. 평균 오차는 2cm 이하이며 정확한 추적을 실현할 수 있었다. \r\n마지막으로 \r\n여기에서는 파티클 필터를 이용한 추적에 있어서 샘플의 우도(尤度) 평가에 AdaBoost 학습에 의한 식별기를 이용한 인물 머리 부분 추적 방법을 들어 예로 영상 속의 얼굴이나 머리의 추적 기술에 대해 소개했다. \r\n여기서 기술한 인물 머리 부분 추적에 관련한 흥미로운 연구 동향으로써 Online-Boosting 기술이 있다. 이것은 식별기를 구성하는 약식별기를 추적하면서 실시간으로 바꿔 넣어 각 시각에서의 추적 대상 상태에 적절한 식별기를 구성하는 수법으로 자세나 형상의 변동에 강한 추적 기술로써 향후의 발전이 기대된다. \r\n<글 : 코바야시 타카노리(Kobayashi Takanori) / 사이타마 대학> \r\n[월간 시큐리티월드 통권 제170호(sw@infothe.com)] \r\n\r\n |
|
|
|