보안 제품정보


[Technical Report] 인물 인식·행동 추적 기술과 솔루션 2016.12.02

스테레오 카메라에 의한 실시간 인물 행동 계측

[시큐리티월드 이토 세이야] 히타치제작소는 스테레오 카메라에 의한 3차원 영상 분석 기술을 이용한 인물 추적 수법과 행동 계측 어플리케이션을 개발했다. 이 연구는 행동을 계측한 결과를 분석해 가시화하는 것으로 점포나 오피스 등에 있어 사람의 행동에 관련된 개선책 등 새로운 발견을 제공하는 것이 목적이다. 이를 통해 스테레오 카메라에 의한 인식 처리에서는 종래의 단안 카메라에 의한 인식에 대해 고정밀도로 검출 가능한 수법을 제안한다.

그동안 CCTV에 의한 계측 기술은 카메라 설치조건의 변화에 의해 검출 성능이 대폭으로 저하되는 경우가 있어, 일정한 성능유지를 위해서 조정 비용이 필요했다. 적용할 수 있는 상황도 한정돼 분석에 충분한 계측 정밀도가 확보되지 않는 등의 과제도 있었다. 그래서 스테레오 카메라에 의해 취득한 3차원 데이터를 분석하는 정밀도가 높고 카메라의 설치환경에 영향을 덜 받는 인물 검출·추적 수법을 제안하고 실제 데이터에 의한 평가로 그 효과를 검증하고자 했다. 이번 기고에서는 이 기술을 활용한 행동 계측의 사례를 소개한다.

\n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n
width=500

도시공간이나 시설, 점포 등의 공간은 사람의 흐름에 의해 구성되고 있다고 해도 과언이 아니다. 또, 사람의 흐름에 의해 새로운 가치가 창출되는 경우도 많다. 각각의 인물마다의 가치관이 다양하고, 제공할 수 있는 가치도 각양각색으로 변화한다. 이런 공간과 사람의 관계성에 착안하면, 쇼핑센터나 대규모 전시회에서는 집객, 회유, 흥미 유발 행동, 구매 등으로 단계적인 프로세스를 거치고 있는 것을 볼 수 있다. 이 사람의 흐름이나 행동, 인물의 카테고리 등 인간행동을 정량화하는 것으로 대상이 되는 공간의 가치를 향상시키고, 관계된 사람들의 만족도를 향상시키는 대처에 대한 기대도 높일 수 있다.

기존에는 이를 위한 계측 수단으로 적외선 태그, 레이저 레이더 위치 계측, CCTV 영상을 이용한 분석 등이 사용됐다. 그런데 해당 정보는 위치 분해능이나 그 정밀도, 설치 장치의 규모나 조정 비용, 행동 분석의 종별 등 충분한 정보를 얻을 수 없는 경우가 있었다. 그래서 이번 연구에서는 이런 문제를 해결하기 위해 스테레오 카메라를 이용한 인물의 위치 계측, 행동 분석 어플리케이션을 개발했다.

\n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n
width=531

그동안 널리 제안된 카메라에 의한 인물 추적 기술은 옵티컬 플로나 통계적 학습에 의한 수법이 일반적이다¹). 전자의 기술에서는 영상 내의 움직임 벡터를 나타내는 옵티컬 플로를 시계열로 연결하는 것으로 화소마다 이동 궤적을 구하고, 그 이동 궤적의 클러스터링에 의해 사람을 검출한다. 각 클러스터에 속하는 이동 궤적을 통합해서 인물의 추적을 실현한다. 통계적 학습을 베이스로 한 추적 기술에서는 먼저 학습 데이터로부터 HOG나 Joint Haar-like 등과 같은 사람처럼 보이는 것을 찾아내는 이미지 특징량²) ³)을 추출하고, AdaBoost⁴) 등의 통계적 학습 수법에 의해 식별기를 작성한다.

그리고 학습한 식별기로 실제 입력 영상으로부터 검출한 인물을 템플릿 매칭6) 등을 이용해 추적한다. 그렇지만, 촬영 상황이나 조명 조건 등에 따라 검출 정밀도가 저하되고, 특히 혼잡할 때 등 차폐가 빈발하는 상황에서는 추적 정밀도가 대폭으로 저하될 가능성이 있다. 그 대책으로 추적 알고리즘의 파라미터를 예비실험 등을 통해 면밀하게 조정하는 방법을 생각할 수 있다. 그러나 많은 카메라를 각기 조정하기 위해서는 방대한 비용이 드는 것이 문제다.

이에 따라 이번 연구에서는 스테레오 카메라로부터 얻은 3차원 정보를 바탕으로 한 인물 추적 수법을 제안했다. 이 수법은 사람 두부의 3차원 정보를 부감해서 분석하는 것으로 인물의 위치를 계측하고, 그 3차원의 위치 정보와 옵티컬 플로 등의 이미지 특징량을 병용해서 고정밀도로 인물을 추적한다. 이 수법의 실용화를 위해 카메라 설치 시에 조정이 필요한 파라미터 수가 최소한이 되는 방법을 제안했다. 동시에 그것들을 용이하게 조정할 수 있는 교정 기능도 개발했다. 이를 활용하면 모든 상황에 유연하면서도 저비용으로 대응 가능한 계측 수단을 제공할 수 있다. 여기에서는 해당 기술을 활용한 계측 사례와 검출된 인물 주위의 3차원 데이터 분석을 활용한 속성 인식에 대해 소개한다.

스테레오 카메라에 의한 행동 계측의 개요
<그림1>은 시스템 개요에 대해 나타낸다. 스테레오 카메라의 좌우 카메라로부터 취득한 이미지를 이용해 시차(視差)를 취득한 것이다. 이 시차를 거리점군 데이터로 해서 산출하고, 그것들을 임의의 시점으로 변환하는 것으로 인물의 위치 검출 및 거동, 속성 인식 등 행동을 분석한다. 이 검출 결과에 대해서는 실제 공간과 카메라 위치와 검출 결과 대응을 미리해 실제공간상에 매핑한다. 사람의 흐름 분석에 의해 전시 에어리어의 접근율이나 체류시간으로부터 추측할 수 있는 흥미도 등도 정량적으로 취득할 수 있다. 이들 분석 데이터를 BI(Business Intelligence) 툴에 의해 가시화하는 것만으로도 새로운 발견을 사용자에게 제공할 수 있다.

행동 계측 수법
\n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n
width=
이번 연구를 위한 개발한 행동 계측 수법에 대해 기술한다. 제안 수법은 교정, 인물 검출, 인물 추적 등 3개의 기능으로 구성된다. 먼저 교정에 의해 카메라 설치 자세 등의 외부 파라미터를 추정한다. 이 파라미터를 이용하여 3차원에서 데이터를 분석하는 것으로 인물 검출과 추적을 실현한다. 아래에 각 기능의 상세를 기술한다.

<식(1)>에서 xmin, ymin은 점군 정보xw에 있어 x좌표, y좌표의 최소값을, δ는 정규화 상수를 나타낸다. 고정밀도로 시차와 외부 파라미터를 취득할 수 있다고 가정하면, 정면 시점 및 옆 시점의 이미지 데이터는 바닥면이 수평이며, 바닥면에 대해 인물이 수직이 되도록 관찰된다. 그러나 현실에는 생각대로 설치하는 것이 곤란하기 때문에 <그림2>의 상단과 같이 변형이 생긴 이미지가 생성된다. 키보드 입력 등으로 각 파라미터의 값에 대해 시점 변환 이미지를 확인하면서 조정하고, 기준선에 일치하도록 조작하여 최종적인 파라미터 값을 출력한다. 이러한 툴을 사용하면 눈대중으로 감각에 의해 파라미터를 조정할 수 있기 때문에 지견이 없는 사용자도 쉽게 교정을 할 수 있다.

\n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n
width=530

3차원 데이터에 의한 사람 검출
본 연구 인물 검출 수법의 개요는 <그림3>을 이용해 기술한다. 먼저 미리 촬영 에어리어에 인물이 포함되어 있지 않은 시차 배경 이미지와 입력 시차 이미지와의 배경 차분에 의해 인물 존재 영역을 추출한다. 다음에는 교정 툴로 구한 외부 파라미터를 이용해서 시점을 변환한다. 그런 다음 인물 존재 영역과 실측값을 대조해 영역을 일정한 높이(예를 들면 150㎝)의 평면으로 분할한 데이터를 취득한다. 어깨나 동체는 다른 인물 영역과 접촉하는 기회가 많아 3차원 정보를 이용해도 분리가 곤란한 문제가 있다.

두부 영역은 접촉이 적어 분리에 적합하기 때문이다. 여기에서 분리한 두부 영역의 3차원 점군 정보를 부감 시점 데이터로 변환하면 인물이 쉽게 분리된다는 것을 알 수 있다. 마지막으로 이미지를 라벨링 처리하여 원래의 입력 이미지에 투영하면, 인물의 두부 위치를 검출할 수 있게 된다.

\n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n
width=532

하이브리드형 인물 추적
인물 추적의 개략을 <그림4>에 나타낸다. 해당 수법에서는 처음에 인물을 검출할 때 취득한 부감 라벨링 이미지의 각 영역 중심을 산출한다.

<그림4>의 하이브리드형 인물 추적에 있어 중심 좌표는 대체로 두부의 천정부분과 일치하기 때문에 좌표에서 인물의 3차원 위치를 계측할 수 있다. 그리고 프레임간에서의 각 영역 중심좌표를 비교하여 그 유클리드 거리가 소정의 범위 이내에서 최소가 되는 영역에 대해 대응을 시키고 ID를 부여한다.

인물의 이동량이 커서 소정의 범위 이내에 다 들어가지 않을 경우나, 시차가 불안정하여 3차원 정보가 결손될 경우 인물의 추적 궤적이 도중에 끊어질 가능성이 있다. 그래서 이번 연구에서는 추적 결과가 도중에 끊어지는 부분을 옵티컬 플로 및 템플릿 매칭5) 등과 같은 이미지 특징량을 병용하여 보완한다.

이 수법에 있어 이미지 특징량에 의한 추적 궤적의 보간(補間) 방법은 학습 단계와 실행 단계로 나누어진다. 학습 단계에서는 각 프레임의 인물 검출 결과를 고려, 옵티컬 플로에 의해 직사각형 내의 특징점을 추출하고, 동시에 직사각형의 일부를 템플릿으로 보존한다.

실행 단계에서 이전 프레임까지 유클리드 거리에 의해 추적한 인물이 현재 프레임에 존재하지 않는다고 판정된 경우에는 대상 인물의 특징점 탐색과 템플릿 매칭을 실시한다. 일정이상의 일치도가 되었을 경우는 대상 인물의 추적을 계속한다.

기본평가
평가 데이터
이번 실험에서 사용하는 평가 데이터를 <그림5>에 나타낸다. 카메라의 높이와 부각에 대해서는 실제 CCTV의 설치환경을 상정했다. 취득한 시나리오에 대해서는 1명이 규칙적으로 움직이는 상황과 그 외 불규칙적으로 여기 저기 움직이는 상황, 복수의 사람이 행렬이 되어 움직이는 상황 등 차폐 등을 포함한 4종류의 시나리오로 추적 정밀도를 평가했다.

\n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n
width=259
평가 결과
제안 수법과 종래 수법의 출력 결과 예를 <그림6>에 나타낸다. 종래의 수법은 HOG²)로 사람 검출을 한 인물에 대해서 템플릿 매칭5)을 이용해 추적하는 수법을 이용했다. 종래 수법에서는 이미지 중앙 부근에서 중복되어 있는 3명을 1명의 인물로 검출하고 있으며, 이미지 오른쪽 끝에는 오검출이 발생한 것을 알 수 있다.

\n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n
width=
한편, 제안 수법에서는 중복된 3명을 구별해서 검출하고, 오검출도 존재하지 않아 인물만이 검출된 것을 알 수 있다. 다음에 정량 평가의 결과에 대해서 기술한다. 이번 실험에서는 <식(2)>에서 산출한 추적 정답율을 사용한다.

앞에 기술한 평가 데이터에서 추적 정답율의 평균을 산출한 결과, 종래 수법이 66.9%인데 대해 제안 수법은 93.3%를 나타낸 추적 정밀도가 향상된 것을 확인했다. <표1>의 각 평가 데이터에 있어 추적 정답율의 상세를 나타낸다.

<표1>의 종래 수법에서는 1명이나 3명이 여기 저기 움직이는 상황 일부에서 90% 이상의 추적 정답율을 나타내고 있지만, 인원수가 늘어나 차폐가 빈발하는 상황에서는 추적 정밀도가 대폭 저하된 것을 알 수 있다.

한편, 제안 수법에서는 외에는 대략 90% 이상의 정답율을 나타냈고, 90%를 밑돈 상황에서도 종래에 비해 훨씬 높은 값을 나타내고 있는 것을 확인할 수 있다. 한편, 의 정밀도가 낮은 요인으로서는 부각이 얕아 카메라에서 먼 곳의 사람이 촬영되기 쉬운 상황이기 때문에 시차를 충분히 얻을 수 없는 먼 곳에 있는 인물의 미검출이 다른 상황보다 많은 점을 들 수 있다. 이 대책으로서는 처리 해상도를 향상시키는 것, 거리에 따라서 취득할 인물의 점군 정보를 늘리는 등의 방법으로 대응할 수 있다.

\n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n
width=527

스테레오 카메라에 의한 인물 속성 인식
앞에서 기술한 스테레오 센싱에 의한 행동 계측과 더불어 사람과 그 주위에 관한 3차원 데이터를 분석하는 것으로, 예를 들면 유모차나 휠체어 등을 인식하여 어린이 동반 고객이나 보호가 필요한 고령자 등과 같은 사람의 속성을 추정하는 기술을 개발했다. <그림7>에 그 개요를 나타낸다. 종래의 속성 검출에서는 성별이나 연령 등의 특징에 한정되어 있었지만, 행동 계측이나 서비스에 활용하는 특정 속성에의 요구가 높아졌다. 이번 연구에서는 임의의 높이에 있어 사람의 위치와 그 주위 3차원 데이터를 분석하여 물체의 체적이나 형상을 식별한다.

사전에 등록한 물체의 데이터와 비교하는 것으로, 예를 들면 유모차나 쇼핑 카트, 큰 짐, 휠체어 등 인물에 포함되어 있는 물체를 식별하고 정보로부터 어린이 동반 고객이나 보호를 요하는 고령자 등 특정한 속성을 추정한다. 이것에 의해 추정되는 속성별로 정보 단말이나 사이니지 표시 내용을 변경하거나 직원을 파견해서 이동 지원을 하는 등 개인의 요구에 맞춘 서비스를 제공할 수 있게 된다. 현재 인물 위치의 계측 등과 속성 인식을 합한 활용 서비스를 검토 중이다.

\n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n
width=257
스테레오 센싱의 사례 소개
이번 장에서는 전시회에 설치한 스테레오 카메라를 이용해서 방문자의 위치 계측과 방문 시의 행동을 분석한 사례에 대해서 소개한다. 해당 어플리케이션의 예는 <그림8>을 통해 확인할 수 있다.

스테레오 카메라로 취득한 거리 데이터에 대해 사람 검출 및 추적을 앞에 기술한 수법으로 실행하고, 검출한 결과를 전시장의 맵 위에 중첩 표시되게 했다. 인물 위치는 통행자와 체류자로 나누어서 표시했으며, 체류자는 소정의 시간과 이동범위 내인 경우에 체류자로 표시했다.

다음에 어떤 개최일에 있어 방문자 수의 추이를 <그림9>에 나타낸다. 통행자는 해당 전시회에 들르지 않고 통과한 인원수, 흥미자 수는 해당 전시를 청강한 인원수에 대해 중복을 포함시킨 총 인원수이다. 통행자 수는 10시 개장부터 1시간당 1,600명을 넘었고, 최대로 15시에는 1,872명으로 계측되었다.

이것에 대해 흥미자 수는 537명, 511명으로 통행자의 30% 전후였다. 계측 결과는 오검출이라고 생각되는 것을 배제한 결과이다. 통행자는 회장을 출입하는 전시자 등을 포함하기 때문에 많이 계수되지만, 흥미자 수는 중복이 없는 수라고 예상된다. 이 점을 생각하면 당일 전시 회장의 방문자 수 5,512명에 대하여 3,112명이 되어 56%가 전시장에 방문했다고 추측할 수 있다.

<그림9>는 전체 추적율의 추이를 꺾은선 그래프로 나타낸 것이다. 이것은 어떤 인물이 카메라 화각 내에 출현해서 화각 밖으로 나갈 때까지 전체 프레임에 걸쳐 추적할 수 있었던 인물의 비율을 나타낸다. 또, 당일 방문자의 밀도는 2.5명/㎡으로 어림되었다. 이것은 전시회장으로서는 혼잡 정도가 대단히 높아 인물의 검출이나 추적에 대단히 곤란한 상황이었음을 고려할 필요가 있다. 이와 같이 실제 데이터의 추이를 다양한 각도에서 확인함으로써 사람의 행동이나 이벤트 회장 등에서의 통계 데이터에 대해 새로운 의미를 가지는 분석을 얻을 수 있다는 전망을 나타냈다.

\n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n
width=257
맺음말
스테레오 카메라를 사용한 행동 계측과 그것을 응용한 행동 분석 어플리케이션에 대해서 실제 데이터에 의한 평가와 전시회에서의 분석 결과 일례를 소개했다. 스테레오 카메라에 의한 행동 계측은 스테레오 카메라로 계측한 3차원 정보로부터 사람의 두부를 추출해서 부감하는 것으로 인물을 검출하고, 그 인물의 3차원 위치와 옵티컬 플로, 템플릿 매칭 등과 같은 통상의 이미지 인식을 병용해서 인물을 고정밀도로 추적한다.

평가 실험 결과로부터 제안 수법의 유효성을 확인했다. 또, 인물 위치 주변의 3차원 데이터를 분석하는 것으로 특정한 물체를 검출하고, 거기에서 특정한 속성을 추정하는 기술에 대해서 기술했다. 또, 전시회에 있어 행동 계측 결과를 확인하고, 전시회 부스에서 방문자 분석 통계로의 적용 가능성에 대해 설명했다.

참고문헌
1) L. Bottou, Large-scale machine learning with stochastic gradient descent. In COMPSTAT(2010)
2) M.-M.Cheng, Z.Zhang, W.-Y.Lin, and P.Torr, Bing:Binarized normed gradients for objectness estimation at 300fps.In CVPR(2014)
3) K. Crammer, O. Dekel, J. Keshet, S. Shalev-Shwartz and Y. Singer, Online passive-aggressive algorithms. JMLR, 7:551-585(2006)
4) G. Csurka, C. R. Dance, L. Fan, J. Willamowski and C. Bray, Visual categorization with bags of keypoints. In ECCV International Workshop on Statistical Learning in Computer Vision(2004)
5) J. Dean, G. Corrado, R. Monga, K. Chen, M. Devin, M. Mao, M. Ranzato, A. Senior, P. Tucker, K. Yang, Q. V. Le and A. Y. Ng, Large scale distributed deep networks. In NIPS(2012)
6) P. F. Felzenszwalb, R. B. Girshick, D. McAllester and D. Ramanan, Object detection with discriminatively trained part based models.IEEE Trans. on PAMI, 32(9):1627-1645(2010)
7) R. Girshick, Fast r-cnn. arXiv:1504.08083V1(2015)
8) R. Girshick, J. Donahue, T. Darrell and J. Malik, Rich feature hier-archies for accurate object detection and semantic segmentation.In CVPR(2014)
9) K. He, X. Zhang, S. Ren and J. Sun, Spatial pyramid pooling in deep convolutional networks for visual recognition. In ECCV(2014)
10) K. He, X. Zhang, S. Ren and J. Sun, Delving deep into rectifiers: Surpassing human-level performance on imagenet classification. arXiv:1502.01852V1(2015)
11) G. E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever and R. Salakhutdinov, Improving neural networks by preventing co-adaptation of feature detectors. arXiv:1207.0580(2012)
12) S. Ioffe and C. Szegedy, Batch normalization: Accelerating deep network training by reducing internal covariate shift.In ICML(2015)
13) H.Jegou, M. Douze and C.Schmid, Product quantization for nearest neighbor search. IEEE Trans.on PAMI、33:117128(2011)
14) H. Jeggou, M. Douze, C. Schmid and P.Perez, Aggregating local descriptors into a compact image representation.In CVPR(2010)
15) A. Krizhevsky, I. Sutskever, and G. Hinton, Imagenet classification with deep convolutional neural networks.In NIPS(2012)
16) Q. Le, M. Ranzato, R. Monga, M. Devin, K. Chen, G. Corrado, J. Dean and A. Ng, Building high-level features using large scale unsupervised learning.In ICML, (2012)
17) Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard and L.D. Jackel, Backpropagation applied to hand-written zip code recognition. Neural Comput., 1(4):541-551,dec(1989)
18) Y. Lin, F. Lv, S. Zhu, M. Yang, T. Cour, K. Yu, L. Cao and T. Huang, Large-scale image classification: Fast feature extraction and svm training.In CVPR(2011)
19) F. Perronnin and C. Dance, Fisher kernels on visual vocabularies for image categorization.In CVPR(2007)
20) O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. S. Bernstein, A. C. Berg and L. Fei-Fei, Imagenet large scale visual recognition challenge.arXiv:1409.0575(2014)
21) J.Sanchez and F. Perronnin, High-dimensional signature compres-sion for large-scale image classification. In CVPR(2011)
22) K. Simonyan and A. Zisserman, Very deep convolutional networks for large-scale image recognition. In ICLR(2015)
23) C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Er-han, V. Vanhoucke and A. Rabinovich, Going deeper with convolutions.In CVPR(2015)
24) Y. Ushiku, M. Hidaka and T. Harada, Three guidelines of online learning for large-scale visual recognition.In CVPR(2014)
25) K. E. A. van de Sande, J. R. R. Uijlings, T. Gevers and A. W. M. Smeulders, Segmentation as selective search for object recognition. In ICCV(2011)
26) J. Wang, J. Yang, K. Yu, F. Lv, T. Huang and Y. Gong, Locality-constrained linear coding for image classification. In CVPR(2010)
27) J. Wang, P. Zhao and S. C. Hoi, Exact soft confidenceweighted learning.In ICML(2012)
28) J. Yang, K. Yu, Y. Gong and T. Huang, Linear spatial pyramid matching using sparse coding for image classification.In CVPR(2009)
29) K. Yu, T. Zhang and Y. Gong, Nonlinear learning using local coordinate coding. In NIPS(2009)
30) M. D. Zeiler and R. Fergus, Visualizing and understanding convolutional networks. In ECCV(2014)
[글 이토 세이야·사사야 사토시 히타치제작소]

[월간 시큐리티월드 통권 238호(sw@infothe.com)]

<저작권자 : 시큐리티월드(http://www.securityworldmag.co.kr) 무단전재-재배포금지>