보안 제품정보


입력 영상에서 인원수의 공간적 분포 추정 기술 2015.03.08

\r\n

[시큐리티월드=나고야대학 다부치 요시무네·데구치 다이스케·이데 이치로·무라세 히로시/기후쇼토쿠가쿠엔대학] 카메라를 사용한 군집분석은 공공의 안전이나 마케팅 등에서 필요로 하고 있다. 이에 우리는 군집 분석 중에서도 소영역별 인원수를 구하는 공간적인 인원수 분포 추정 실현을 목표로 연구를 시작했다.

\r\n

\r\n

\r\n\r\n\r\n
\r\n

\r\n


그러나 카메라로부터 떨어진 장소에서는 인물들이 서로 겹치는 현상이 발생하기 때문에 공간적인 인원수 분포를 정확하게 추정하기는 쉽지 않다. 그래서 이번 기사에서는 다수의 카메라로 촬영된 영상을 이용해 기억형 회귀에 의해 인원수 분포를 추정하는 방법을 소개하고자 한다. 이 방법은 인원수 분포와 군집의 모습을 대응시킨 표를 이용하는 것으로 이미 군집의 모습에 겹치는 부분이 포함되어 있기 때문에 겹치는 문제에 대응할 수 있는 인원수 분포 추정 방법을 실현할 수 있다.

\r\n

공공의 안전이나 마케팅을 목적으로 인원수를 세거나 행동조사와 같은 군집분석이 이루어지고 있다. 또 최근 보안의식의 고조로 CCTV로부터 얻은 대량의 영상에서 군집을 분석하는 기술이 요구되고 있다. 그러나 사람의 손으로 일일이 분석하면 많은 시간과 노동력이 필요하기 때문에 대량의 영상을 자동으로 군집분석하는 기술에 대해 기대가 높다. 우리는 군집분석 중에서도 카메라를 사용한 공간적인 인원수 분포 추정을 눈여겨 볼 생각이다. 이것은 그림 1과 같이 입력 영상에서 인원수의 공간적인 분포를 추정하는 기술이다. 이것으로 군집분포에 대한 상세한 정보를 얻을 수 있고 마케팅 등에도 이용할 수 있다.

\r\n

\r\n

\r\n\r\n\r\n
\r\n

\r\n


\r\n

지금까지 군집분석을 목적으로 인원수 추정이나 인물추적과 같은 다양한 연구가 이루어져 왔다. 카메라를 사용한 인원수 추정 연구로서 사람의 얼굴 등 특정한 형상을 검출해 수를 계산하는 방법1), 영상 특징량과 인원수의 관계 회귀에 근거하는 방법2), 영상속의 특정한 영역을 통과하는 사람을 검출해 인원수를 계산하는 방법3) 등이 제안됐다.

그러나 이것들은 카메라의 촬영 범위 내에 존재하는 인원수의 추정을 목적으로 하고 있지만 촬영범위 내 사람 수가 어떻게 분포돼 있는지는 고려하지 않았다. 한편, 인물추적 연구로서는 인체의 부분을 사용하는 방법4), 시야가 겹치지 않는 여러 대의 카메라를 사용해 카메라 간 동일인물을 추정하고 그것을 대응시켜 추적을 하는 연구5), 6)를 들 수 있다. 그러나 이 방법을 직접 인원수 분포추정에 사용할 수는 없다.

\r\n

카메라로부터 공간적인 인원수 분포를 추정하는 것은 카메라로부터 떨어진 인물일수록 가까운 인물에 의해 가려지기 때문에 정확한 추정이 어려워진다는 문제점이 있다.

\r\n

이번 기사에서 우리는 문헌7)에서 제안한 여러 대의 카메라 영상을 이용해 기억형 회귀로 인원수 분포를 추정하는 방법을 소개한다. 기억형 회귀는 그림 1에 나타난 것과 같이 군집의 모습과 인원수 분포의 대응표를 작성해 입력영상과 대응표를 비교하는 것으로 실현된다. 이미 군집의 모습에 겹치는 부분이 포함되어 있기 때문에 겹치는 문제에 대응할 수 있는 추정을 실현한다.

또 위치는 다르지만 시야가 중복되는 여러 대의 카메라를 이용함으로써 많은 정보를 얻을 수 있고 이는 인원수 분포를 추정하는데 도움이 된다. 그림 2는 단일 카메라로 여러 명의 인물존재를 정확히 파악할 수 없는 예를 나타내고 있다.

여기에서 그림 2 (b)와 같은 사람의 배치를 카메라1에서 촬영하면 얻어지는 영상은 그림 2 (a)와 같이 된다. 이렇게 차폐의 영향 때문에 하나의 카메라만으로는 사람의 존재를 정확하게 파악하기 어렵다. 한편 동일한 사람의 배치를 카메라 2에서 촬영했을 경우는 그림 2 (c)와 같이 사람의 존재를 정확하게 파악할 수 있다.

\r\n

이와 비슷한 문제를 위쪽에 설치된 단일 CCTV로 해결하는 방법8)도 제안됐다. 그러나 위쪽에 카메라를 설치할 수 있는 현장은 그리 많지 않다.

\r\n

\r\n

\r\n\r\n\r\n
\r\n

\r\n


\r\n

기억형 회귀에 의한 인원수 분포 추정

\r\n

기억형 회귀에 의한 인원수 분포 추정 방법은 바닥면을 여러 개의 영역으로 분할하고 각각의 분할된 영역에 존재하는 인원수를 추정하는 것으로 전체 인원수 분포를 구한다. 이제 분할 된 바닥면의 각 영역은 바닥면 분할영역이라고 하겠다. 이번 기사에서는 그림 3과 같이 바닥면을 3×3=9개의 영역으로 분할했다.

\r\n

그림 4는 제안방법의 처리흐름을 나타낸 것이다. 제안방법은 학습영상 생성단계, 대응표 작성단계, 인원수 분포 추정단계의 3가지 처리로 흐름으로 나뉜다. 먼저 학습영상 생성단계에서는 학습용 영상을 영상합성으로 생성한다.

대응표 작성 단계에서는 학습영상으로부터 특징량을 추출하고 추출된 특징량과 대응하는 인원수 분포를 대응표에 기록한다. 인원수 분포 추정단계에서는 입력 영상에서 추출한 특징량과 대응표의 특징량을 비교해 공간적인 인원수 분포를 추정한다.

\r\n

이번 기사에서 소개하는 방법은 여러 대의 카메라에 적용 가능하지만 좀 더 쉬운 설명을 위해 2대의 카메라일 경우를 가정하고 구체적인 처리 순서를 소개하겠다. 그 다음 각각의 처리에 대해서 상세하게 설명한다.

\r\n


\r\n

(1) 학습영상 생성단계

\r\n

그림 5는 학습영상 생성 처리의 흐름을 나타낸 것이다.

\r\n

① 각각의 바닥면 분할영역 내에 0∼4명이 존재하는 상황을 카메라로 사전에 촬영한다.

\r\n

② 촬영된 영상으로부터 수작업으로 인물영역을 잘라낸다.

\r\n


③ 잘라낸 여러 개의 인물영상과 배경영역을 합성해 학습용 영상을 생성한다. 학습영상은 모든 인원수 분포 패턴에 대해 생성해 다음 단계인 대응표 작성단계에서 사용한다. 실제로 생성된 학습용 영상의 예를 그림 6에 제시한다. 이것으로부터 알 수 있듯 생성한 영상에서는 전후의 바닥면 분할영역에 있어 사람이 겹쳐져 있는 것이 고려돼 있다.

또 각 바닥면 분할 영역에서 잘라낸 영상을 이용해 앞에 있는 인물일수록 크게 나타나도록 자연스러운 영상 합성이 실현되어있다.

\r\n

④ 이 처리를 양쪽 카메라에 모두 적용한다.

\r\n


\r\n

(2) 대응표 작성단계

\r\n

① 각 학습용 영상으로부터 특징량을 추출한다. 여기에서 특징 추출은 그림 7과 같이 바닥면 분할영역을 높이 방향으로 3분할한 영역에서 실시한다. 이것을 공간분할영역이라고 한다.

이렇게 특징 추출 영역을 분할하는 것은 사람의 각 부위마다 특징량이 다르기 때문이다. 각각의 공간분할영역에서 그 앞 영역의 전체 화소 수, 앞 영역의 가장자리 화소 수, 앞 영역과 배경 영역 경계의 화소 수 등 이 3가지의 영상 특징을 추출한다. 그림 8은 이 영상특징의 예를 나타낸다. 특징 벡터의 차원 수는 3(특징량의 종류)×9(바닥면 분할 수)×3(공간 분할 수)×2(카메라 수)=162다.

\r\n


② 추출된 특징량 중 유효한 특징량 만을 이용하기 위해서 주성분 분석으로 차원을 삭감한다. 이 때 고유값이 1이상인 특징량을 주성분으로 사용한다.

\r\n


③ 차원 삭감 후 특징 벡터와 인원수 분포의 패턴을 대응시킨 표를 작성한다.

\r\n


\r\n

(3) 인원수 분포 추정단계

\r\n

① 대응표 작성단계와 동일한 위치의 카메라 2대로부터 영상을 입력한다.

\r\n


② 대응표 작성단계와 같은 순서로 입력된 영상에서 공간분할 영역 마다 특징을 추출하고 차원 감소시킨다.

\r\n

\r\n

③ 입력 특징 벡터와 대응표의 특징 벡터를 비교해 k 근방을 찾는다. 다른 인원수 분포 패턴에서도 특징량이 유사한 경우가 있기 때문에 여기에서는 최근방 대신에 k 근방을 사용한다.

\r\n


④ 추정결과로 k 근방 특징 벡터에 대응하는 인원수 분포 패턴의 가중값 합을 계산한다. 이 가중값은 특징 벡터간의 거리를 토대로 계산한다.

\r\n


\r\n

인원수 분포 추정 실험

\r\n

제안방법의 유효성을 조사하기 위해 인원수 분포 추정 실험을 실시했다. 그림 9는 카메라와 추정영역의 위치 관계를 나타낸 것이다. 이번 실험에서는 300×300㎠의 바닥면을 3×3=9개의 영역으로 분할해 인원수 분포를 추정했다.

이번 실험에서는 앞 영역 추출에 정규화 거리를 사용한 배경차분법9)을 사용했으며 가장자리 검출 방법으로는 Canny 가장자리 검출기10)를 사용했다. 평가 척도는 추정된 인원수 분포와의 평균 절대값 오차를 사용했다.

평가용 데이터로는 2대의 카메라에서 1∼13명이 동시에 촬영된 영상 184장을 사용했다. 각 바닥면 분할영역에 존재하는 인원수는 최대 4명으로 했다. 실제 평가용 데이터로 사용한 영상에서 13명의 인물이 촬영된 예를 그림 10에 나타냈다. 이번 실험에서는 각 바닥면 분할영역에 대해 5패턴(0∼4명 각각 1패턴)을 촬영해 학습용 영상 생성에 사용했다. 즉, 학습 영상은 합계 59=1,953,125장이다.

\r\n


\r\n

비교방법은 각 분할된 영역 마다 인원수를 추정하는 것으로 인원수 분포를 추정하는 방법을 사용했다. 구체적으로 학습단계에서는 제안방법과 동일하게 추출한 특징량과 정답 인원수와의 관계를 2차 다항식으로 만들어 회귀하고 추정단계에서는 회귀로 얻은 2차 다항식을 이용해 바닥면 분할 영역별 인원수를 추정했다.

\r\n

\r\n

\r\n\r\n\r\n
\r\n

\r\n


\r\n

실험결과와 고찰

\r\n

그림 11은 제안방법과 비교방법에 있어 각 바닥면 분할 영역의 추정 오차를 나타낸 것이다. 이 그림으로부터 모든 위치(x,y)에서 제안방법이 비교방법 보다 오차가 작다는 것을 알 수 있다. 비교방법에서는 사람들이 가려지는 현상 때문에 정확한 인원수 분포 추정이 어려웠을 것이다. 한편, 제안방법에서는 일부 사람이 가려지는 경우를 포함시켜 대응표를 작성했기 때문에 정밀도가 높게 나타났다고 생각된다.

\r\n


\r\n

그림 12에 제안 방법이 정확하게 추정된 경우의 예를 제시한다. 그림 12 (a)에 바닥면 영역의 추정 인원수 절대값 오차를, 그림 12 (b)∼(e)에 카메라1과 카메라2의 입력 영상과 정답 배치 패턴의 생성 영상을 나타낸다. 이와 같이 입력 영상과 생성 영상의 모습이 유사하기 때문에 정밀도가 높아졌다고 생각할 수 있다.

\r\n

\r\n

한편, 그림 13에 제안 방법이 정확하게 추정하지 못한 경우의 예를 제시한다. 그림 13 (a)에 바닥면 영역의 추정 인원수 절대값 오차를 그림 13 (b)∼(e)에 카메라1과 카메라2의 입력영상과 정답배치 패턴의 생성 영상을 나타낸다.

인원수 분포 패턴이 동일해도 입력 영상과 생성 영상 사이에 사람의 움직임이나 복장 등 모습에 큰 차이가 있다는 것을 알 수 있다. 이러한 경우에 이 방법에서는 정밀도가 저하된다. 이번 실험에서 대응표의 작성에는 배치 패턴 별 모습 패턴을 1종류 밖에 사용하지 않았으나 이 모습 패턴을 증가시키는 것으로 대응할 수 있을 것으로 생각된다.

\r\n

그림 14에 제안 방법의 파라미터 k와 추정 오차의 관계를 나타낸다. 파라미터 k는 인원수 분포 추정단계의 k 근방값이다. 이 그림으로부터 k가 7 부근에서 가장 오차가 작다는 것을 알 수 있다.

\r\n


\r\n

이번 기사에서는 다수의 카메라를 사용한 기억형 회귀로 공간적인 인원수 분포를 추정하는 방법7)을 소개했다. 이 방법은 먼저 여러 대의 카메라에 의해 얻은 영상을 공간분할 영역으로 나누고, 각 영역에서 특징량을 추출해 주성분 분석을 한다.

그리고 특징량과 인원수 분포의 패턴을 대응표에 기록하고 특징량을 비교하는 것에 의해 인원수 분포를 추정했다. 평가실험에서는 제안방법의 인원수 분포추정 정밀도를 평가했으며, 결과적으로 실험결과 비교방법보다는 제안방법이 정밀도가 높다는 것을 알 수 있었다.

\r\n


\r\n

[참고문헌]

\r\n

1) M.Li, Z.Zhang, K.Huang, T.Tan:“Estimating the number of people in crowded scenes by mid based foreground segmentation and head-shoulder detection”,Proc. 19th IAPR Int. Conf. on Pattern Recognition, WeAT2.1, pp.1-4(Dec.2008)

\r\n

2) A.Chan, Z.Liang, N.Vasconcelos:“Privacy preserving crowd monitoring:Counting people without people models or tracking”,Proc. 2008 IEEE Computer Society Conf. on Computer Vision and Pattern Recognition, pp.1-7(June 2008)

\r\n

3) K.Terada, D.Yoshida, S.Oe, J.Yamaguchi:“A method of counting the passing people by using the stereo images”,Proc. 1999 IEEE Int. Conf. on Image Processing, Vol.2, pp.338-342(Oct.1999)

\r\n

4) B.Wu, R.Nevatia:“Detection and tracking of multiple, partially occluded humans by Bayesian combination of edgelet based part detectors”,Int. Journal of Computer

\r\n

Vision, Vol.75, No.2, pp.247-266(Nov.2007)

\r\n

5) O.Javed, Z.Rasheed, K.Shaque, M.Shah:“Tracking across multiple cameras with disjoint views”,Proc. 9th IEEE Int. Conf. on Computer Vision, Vol.2, pp.952-957(Oct.2003)

\r\n

6) O.Javed, K.Shaque, M.Shah:“Appearance modeling for tracking in multiple non-overlapping cameras”,Proc.2005 IEEE Computer Society Conf. on Computer Vision and Pattern Recognition, Vol.2, pp.26-33(June 2005)

\r\n

7) Y.Tabuchi, T.Takahashi, D.Deguchi, I.Ide, H.Murase, K.Kashino, T.Kurozumi : “Spatial people density estimation from multiple viewpoints by memory based regression”,Proc. 22nd IAPR Int. Conf. on Pattern Recognition. pp.2209-2214(Aug.2014)

\r\n

8) 니와카와마고토, 온다도시카즈 : “CCTV 영상 속 국소적인 움직임 검출과 이벤트 누적에 의한 시간적·공간적 혼잡도 조사”, 전기학회논문지, Vol. 124, No.10, pp.1060-1066(Oct. 2004)

\r\n

9) 나가야시게키, 미야타케다카후미, 후지타다케히로, 우에다히로타다, 이토게이이치 : “시간상관형 배경 판정법에 의한 이동물체 검출”, 전자정보통신학회논문지(D-II), Vol.J79-D-II, No. 4, pp.568-576(Apr. 1996)

\r\n

10) J.Canny : “A computational approach to edge detection”,IEEE Trans. on Pattern Analysis and Machine Intelligence, Vol.8, No.6, pp.679-698 (Nov.1986)

\r\n

[글_나고야대학 다부치 요시무네·데구치 다이스케·이데 이치로·무라세 히로시/기후쇼토쿠가쿠엔대학]

\r\n

[월간 시큐리티월드 통권 217호 (sw@infothe.com)]

\r\n


\r\n

<저작권자 : (www.securityworldmag.co.kr) 무단전재-재배포금지>