| 역 구내에서의 자세·위치 정보에 근거한 행동 파악 프레임워크 | 2013.06.17 | |||||||||||||||||||
이번 호에서 소개하는 것은 역에서의 보행자 검출·추적과 자세 판별, 위치 추정 및 복수의 오브젝트 간의 인터랙션을 조합시킨 ‘인물행동 파악 프레임워크’다. 역의 경우 다수의 보행자가 통행하고, 오클루젼이 빈번하게 발생하기 때문에 보행자의 궤적정보나 자세정보의 정밀도가 떨어지는 가능성이 높다. 이번에 소개하는 인물행동 파악 프레임워크에서는 보행자의 검출·추적에 시공간 MRF 모델을 적용하는 것으로 오클루젼의 영향을 경감시켰으며 오클루드 된 보행자의 발밑을 추정해 궤적정보의 정밀도를 높였다. 또한, 오클루젼 아래에서의 자세파악은 단일 카메라만으로는 곤란하기 때문에 두 카메라 사이에서 인물 매칭을 실시해 오클루젼이 발생하지 않는 카메라를 선택하는 방법을 사용했다. \r\n가미조 순스케(KAMIJO SHUNSUKE)┃도쿄대학 \r\n최근 역이나 공항 등의 공공교통 시설에 대한 안전에 대한 관심이 높아지고 있다. 특히, 교통 수송의 허브 역할을 짊어지는 역은 이용자의 안전 확보나 역 관리자의 보안관리가 중요하기 때문에 이를 효율적으로 운영하는 시스템이 요구되고 있다. 예를 들면, 역 개찰구에 대한 무단침입이나 응급환자 등 발생에서 역의 안전과 이용객의 안심을 확보하기 위해 빠른 발견이 필요하다. 이 때문에 역 구내에는 다수의 카메라가 설치돼 있으며, 이를 육안으로 확인 수동 감시를 하고 있다. 하지만 감시비용의 절감과 효율성을 높이기 위해 이미지 센서를 이용한 시스템의 자동화가 요구되고 있다. \r\n\r\n이미지 센서에 의한 감시 시스템은 수상한 인물을 검출하기 위한 인물행동 파악기술이 필요하다. 인물행동은 움직임 패턴이나 자세정보 등을 분석하는 것으로 파악할 수 있다. 원래, 여러 가지 인물행동 파악 방법이 연구·개발되고 있지만, 인물의 자세정보나 인물의 이동 궤적정보나 의미적인 위치정보를 나타내는 것을 근거로 하고 있다6). \r\n이중 인물의 자세에 관해서는, 시공간축상의 인물의 움직임 에너지 정보에 기초를 두는 방법2) 이나 HMM(Hidden Markov Model)을 이용한 방법7), 랜덤 장(Random Field)의 개념을 이용한 방법3) 등 다수의 연구가 있으며, 이러한 방법은 움직임 정보를 상세하게 파악하기 위해 많은 학습 데이터를 필요로 한다. 학습에 대해서는 Mo8)와 같이 자세검출 학습기 SVM(Support Vector Machine)을 이용한 방법이 대표적으로 이 방법을 이용해 Nanr9) 로 ‘걷다’, ‘달린다’, ‘넘어진다’는 인물의 기본적인 행동을 파악하고 있다. 그러나 이러한 연구는 실험적인 행동파악에 머무르고 있어 역 등에서 요구되는 것과 같은 실용적인 행동파악에 적용하지는 못한다. \r\n또한, 위치는 이미지상의 오브젝트인 ROI(Region Of Interest)에서 추출된다. Spir-ito10)는 보행자간의 궤적정보로부터 진입이 제한돼 있는 구역으로의 출입을 검출하고 있으며, Bird1)나 Ferrando4)는 위치정보를 이용한 유류물 검지에 관한 연구를 하고 있다. 그러나 이러한 연구는 오브젝트간 이미지 상에서 숨은 오클루젼이 고려되지 않고 있다. \r\n이러한 가운데 인물행동 파악 정밀도는 궤적이나 위치정보와 자세정보를 조합시키는 것으로, 향상시킬 수 있다. 이를 위해 인물의 이동궤적·위치정보와 자세정보의 조합에 의해 인물행동 파악을 하는 프레임워크를 구축한다. 이 프레임워크에서는 이미지상의 인물자세 정보와 위치정보를 추출하고, 조합으로부터 시계열적인 룰 베이스로 인물의 행동을 파악할 수 있다. \r\n인물행동 파악 프레임워크 개요 \r\n여기서 말하는 프레임워크는 역의 플랫폼, 개찰, 콩코스(Concourse) 등에 설치돼 있는 감시 카메라로 이미지 속의 인물의 행동파악을 하는 것을 목적으로 하고 있다. 대상으로 하는 인물행동은 역 개찰 무단침입자, 서성거림, 응급 환자 등으로 빠른 발견이 필요하다. 또한, 동반 개찰 무단침입이나 싸움, 유류물 방치 자와 그 소지자와 같은 복수의 인물이나 물건의 사이에서 인터랙션이 있는 행동에 대해서도 필요하다. \r\n이러한 프레임워크는 오브젝트 검출·트래킹, 인물행동 파악에 사용하는 궤적정보나 자세정보의 추출, 두 카메라 간의 인물 매칭, 복수 오브젝트간의 인터랙션 정보 추출에서 구성돼 있다. 하지만 인물행동 파악 프레임워크는 혼잡시에 발생하는 오클루젼에 대해 로버스트 해야만 하기에 프레임워크에서는 인물영역의 분리 성능에 뛰어난 시공간 MRF모델의 오브젝트 검출·트래킹5)을 기초로 하고 있다. 또한, 시공간 MRF모델 검출 결과와 맞춰, 발밑 추정을 이용해서 오클루드 된 인물의 영역을 보정함으로써 보행자의 정확한 궤적을 추출한다. 이를 통해 두 카메라간의 인물 매칭을 하는 것으로 오클루드가 발생했을 경우, 다른 카메라에서 자세정보 취득을 가능하게 했다. 이와 함께 시공간 MRF모델을 베이스로서 발밑 추정 방법이나 인물 매칭을 조합시킴으로써 오클루젼이 발생했을 경우, 보행자의 정확한 궤적정보를 얻을 수 있으며 시공간 MRF모델에 의해 얻을 수 있는 트래킹 결과에서 시계열적으로 행동을 해석하는 것이 가능해 졌다. 또한, 오브젝트 간의 인터랙션 정보를 시계열적으로 판단하는 것으로, 유류물 검지에 있어서의 유류물과 그 소유자와 같은 복수 오브젝트 간의 행동파악도 가능해진다. \r\n프레임워크의 각 구성 요소 \r\n오브젝트 검출·궤적정보추적 \r\n시공간 MRF모델5)은 시공간 이미지의 시간축방향의 상관관계에 착안해 MRF모델을 시공간 모델로서 확장한 것이다. 통상의 공간 MRF(Markov Random Field) 모델은 픽셀마다 영역분할을 하는 것이 많다. 시공간 MRF모델이라도 원리적으로는 같지만 이미지 프레임에서 차량 등의 실제 움직임은 수 픽셀∼몇 십 픽셀까지 이동하기 때문에 픽셀마다 영역분할을 하는 것은 어렵다. 이 같은 이유로 시공간 MRF에서는 8×8픽셀로 정의되는 블록을 단위로 영역분할을 하는 것으로 해서 이미지 프레임 간에 가지고 있는 블록마다의 움직임 벡터를 참조한 시간축방향 상관을 정의했으며 확률완화 모델을 적용함으로써 오클루젼의 경우라도 이동 물체의 경계를 최적으로 구할 수 있다. \r\n그러나, 시공간 MRF모델에 의해 오클루젼이 해소됐다고 해도 오클루드 된 인물의 일부분은 이미지 위로 나타나지 않기 때문에 인물의 발밑 위치는 정확한 추출이 어렵다. 따라서 이번 연구에서는 오클루드 되지 않은 상태의 인물 ROI의 상단위치와 높이를 참조 값으로 미리 학습했다. 만일 어떤 오브젝트의 ROI의 높이가 그 참조 값보다도 일정량 이하일 경우, 그 오브젝트에 숨겨져 있을 가능성이 높다고 생각해, 이하로 나타날 것 같은 오브젝트의 높이 보정 알고리즘을 적용했다. \r\n\r\n \r\n \r\n Step. 1 : 오브젝트 ROI의 상단의 위치 ytop에 대응하는 추정고 he×0.7을 높이 참조 한계값 ht로 한다. \r\nStep. 2 : 오브젝트 ROI의 높이h가 ht이하일 경우에는 오클루젼 가능성이 높기 때문에 Step. 3으로 이행한다. \r\nStep. 3 : 오클루드 돼있는 오브젝트 ROI 높이를 he로 해서, 하단 위치에 수정한다. \r\n\r\n 알고리즘 종료 \r\n그림 1은 시공간 MRF모델과 오브젝트의 높이 보정 알고리즘을 조합시켰을 경우의 트래킹 결과의 예를 제시하고 있다. 피(被) 오클루젼 인물의 높이가 정확하게 보정돼 있는 것을 알 수 있다. 오브젝트의 좌표정보(x,y)와 사이즈 정보(h,w)는 ROI의 정보에서 시계열적으로 생성된다. 여기에서 오브젝트의 위치는 ROI의 하단 중심이 된다. 그림1의 흰 선은 오브젝트의 위치궤적을 나타내고 있다. \r\n두 카메라 간의 인물 매칭 \r\n시공간 MRF모델을 이용해도 오클루드 된 인물의 자세를 포착하는 것은 어렵다. 그래서 본 프레임워크에서는 오클루드에 의해 단일 카메라로 인물의 자세를 파악할 수 없을 경우에 다른 카메라로부터의 정보를 사용해서 자세판별을 한다. 여기에서는 이 때문에 필요한 두 카메라간의 인물 매칭 방법을 다룬다. \r\n복수 카메라를 이용했을 경우 인물 매칭에 관한 원래 연구에서는 스테레오 카메라와 같이 엄밀한 보정을 필요로 하기 때문에 시스템의 구성이 어려운 방법이 주로 제안돼 왔다. 그것에 비해 연구에서는 두 개의 카메라 촬영 범위 가운데 서로 중복하는 부분에 설정된 4개의 기준점 (그림 2(a))만을 사용하는 방법을 사용했다. \r\n두 개의 카메라는 그림 2(a)와 같이 촬영범위가 겹치도록 설치돼져 있는 것을 전로 한다. 카메라1로부터 본 좌표를 x-y좌표계로 나타내고, 카메라2로부터 본 좌표는 X-Y좌표계로 나타내기로 한다. x-y좌표계에서 X-Y좌표계로의 변환은 \r\n\r\n \r\n 의 식(2)에 의해 행해진다. 단, 계수(a_0, b_0, a_1, b_1, c_1, a_2, b_2, c_2)는 4개의 기준점에서 얻을 수 있다. \r\n여기에서 카메라1이 포착하고 있는 인물 i1의 위치를(x1, y1), 카메라2가 포착하고 있는 인물 i2의 위치를 (x2, y2)로 한다. 단 이 점은 기준점과 같이 바닥 면 위에 있어, 그림 2(b)와 같이 인물을 둘러싸는 테두리의 저변 중점으로 비춰진다. \r\n다음으로 인물의 위치를 추정한다. 이것은 시공간 MRF모델에 있어서 영역분할이 거친 것과, 인물 트래킹의 정밀도가 해상도에 의존하는 것으로부터 인물의 위치추정 정밀도를 더욱 향상 시키는 것을 목적으로 하고 있다. \r\n그림 2 (b)와 같이 우선(x1, y1)을 중심으로 한 영역(R1)을 설정한다. 이 영역(R1)에 속하는 점을 (x1, r1)로 해서 이것을 X-Y좌표계에 투영한 점을 (X1, Y1)이라 한다. 그리고 D2(i1, i2)를 이하의 식 (2)에 따라 계산한다. \r\n\r\n
\r\n
\r\n 또한, 이를 동일하게 해서 (X2, Y2)를 중심으로 한 영역 R2에서 D1(i1, i2)을 계산해 얻은 D1, D2를 이용해 Etotal을 \r\n\r\n \r\n 와 같이 계산한다. 이것을 최소로 하도록 i1과 i2의 조합의 집합을 카메라 1과 카메라 2와의 일치하는 인물의 조합으로서 채용한다. 실제 이미지를 이용한 인물 매칭 예를 그림 3에 나타낸다. \r\n\r\n
\r\n \r\n
\r\n \r\n 자세판별 \r\n이 프레임워크에서는 인물의 자세를 판별하기 위해서 실루엣 이미지에 의한 패턴인식을 실시한다. 여기서 고려하는 자세는 직립자세, 거울자세, 앉은 자세, 드러누운 자세이다. 또한, 자세판별 처리는 인물이 오클루드 돼있지 않을 경우에 실시해, 오클루드 된 인물의 자세는 부정으로 한다. \r\n원래의 실루엣 이미지에 의한 패턴인식에서는 상세한 실루엣의 판별이 가능한 반면, 특징량이 고차원이기 때문에 특정 성분에 나타나는 잡음의 영향을 받기 쉽다는 결점이 있다. 거기에서 이 방법에서는, 2진 실루엣 이미지의 세로방향과 가로방향을 각각 8분할 한 합계 16영역의 픽셀 단위의 휘도 히스토그램을 성분으로 하는 특징량 벡터 x=(x0, x1, …, x15)를 실루엣 특징 량으로서 사용했다. 한편, (x0, x1, …, x7)은 수평방향의, (x8, x9, …, x15)는 수직방향의 휘도 히스토그램을 나타내고 있다(그림 4). 그림 5는 각 자세의 실루엣 특징 량을 나타낸다. 패턴인식에서는 우선 각 자세의 실루엣 특징 량 학습 데이터가 작성돼, 그것들의 학습 데이터와의 표준 유클리드 거리가 가장 가까운 데이터를 테스트 데이터 자세판별 결과로 한다. \r\n또한, 단일 카메라에서는 오클루젼이 생겨버릴 경우에도 다른 카메라가 포착한 자세정보를 이용해서 자세판별이 가능해지는 경우가 있다. 그러한 두 카메라의 조합에 의한 자세판별을 그림 5(b)에 나타낸다. \r\n여기에서 실루엣 이미지 생성방법은 2가지로 생각할 수 있다. 1개는 그림 5(a)의 Silhouette-A와 같이 검은 영역에 의한 보완으로 보행자 오브젝트의 영역이 정방형이 되도록 정규화 하는 방법이며, 직립자세와 그 외의 자세 판별이 용이하며 기타의 자세간의 판별에서는 자세의 회전에 의한 영향을 받기 쉽다. 다른 한 방향은 그림 5(a)의 Silhouette-B와 같이 실루엣 이미지의 사진 확대에 의해 보행자 오브젝트가 정방영역이 되게 정규화 하는 방법이며, 자세의 회전 영향을 받기 어렵다. 그래서 이 방법에서는 Silhouette-B에 의한 패턴인식 부하를 경감하기 위해서 우선 직립자세만을 Silhouette-A의 패턴인식으로 판별하고, 그 외의 자세에 관해서는 Silhouette-B의 패턴인식에 의해 판별한다. \r\n\r\n
\r\n \r\n
\r\n \r\n 위치 추정 \r\n\r\n 본 프레임워크에 있어서 위치정보란 오브젝트의 좌표정보에 대응하는 의미적인 위치정보다. 역 구내의 위치로서는 플로어, 개찰구, 계단, 홈, 벤치 등을 들 수 있다. 이미지상의 위치는 입도(粒度)가 거친 일정 영역마다 설정돼, 그 영역내의 8×8픽셀의 사이즈의 블록 단위로 정의된다. 각 블록의 위치는 그 정의된 블록을 기점으로 해서 가우스 분포를 따르는 확률적인 확대(넓이)를 가지는 것으로 한다. 위치는 확률적인 확대(넓이)를 가지기 때문에 각 블록에서는 위치 벡터가 생성된다. 예로서 중심 위치 좌표가 (xm, yn)인 블록 1(x, y, m, n)의 위치 벡터q(m, n)는 식 (5) 및 (6)으로 구성되는 확률적인 분포를 가진다. 한편 q(m, n)는 위치 (m, n)의 블록의 위치 정보를 나타내는 5차원 (각 차원은 각각 Floor, Gate, Fence, Bench, Stairs에 상당)의 벡터다. \r\n\r\n \r\n \r\n 최종적으로는 이미지상의 모든 블록의 위치 상태확률이 계산돼 그 결과는 위치 상태확률 맵으로서 보유된다. 이것은 각 블록이 확률적으로 어느 위치에 속해 있을지를 나타내고 있다. \r\n인물이 위치하는 위치의 검출은 트렐리스(trellis) 부호로 행해진다. 오브젝트 위치의 경로는 과거에 그 오브젝트가 통과한 경로상의 위치 상태확률 L(x, y)과 각 위치간의 상태변이 확률T로부터 구해진다. 예를 들면 오브젝트 경로가 x인 확률p(L|X)은 시각 t(0≤t≤t0)의 위치를 L(t), 상태확률을 S(t), 위치L(t)에서 L(t+1)로 전환 확률을 TL(t)L(t+1)로 하면 \r\n\r\n \r\n \r\n 이라고 나타낼 수 있다. \r\n위와 같이 경로확률계산을 과거 위치 추이에 관한 모든 경로에 대해 실시해, 최대경로 확률을 가지는 경로를, 최종적으로 그 오브젝트가 통과한 경로라고 확정한다(식 (9)). \r\n\r\n 인터랙션 판정 \r\n\r\n
\r\n \r\n
\r\n 또한, 인물행동 파악에서 사람이나 물건 등의 오브젝트끼리가 서로 관계돼 있기 때문에 생기는 것도 있다(짐을 내버려 두고 가거나 싸움 등). 그래서 이 원고의 알고리즘에서는 궤적이 서로 어떤 일정 거리 이내에 근접하고 있는 오브젝트 간에 어떠한 상관이 있다고 생각해, 그 상호근접 정보를 바이너리 맵으로서 보유한다(근접하고 있는 경우는 ‘1’, 같은 물체끼리의 경우에는 ‘-1’이 넣어진다). 상호관계 맵은 과거로 거슬러 올라가서 일정 수 축적돼, 복수 오브젝트 간에 인터랙션이 있는 행동의 파악에 사용할 수 있다. \r\n그림 7(a)은 취해서 쓰러져있는 사람을 다른 사람이 떠받치고 있는 상태를 인식한 예다. 여기에서는 바닥에 쓰러져 있는 것을 검출한 후에, 그 인물과 인터랙션을 가진 다른 인물을 구조자로서 인식하고 있다. 그림 7(b)과 같이 원래 1개의 오브젝트로서 인식돼 있던 바에서 작은 오브젝트가 분리돼 인물이 떨어졌을 경우에는 유류물의 검지라고 하는 인식이 행해진다. \r\n인물행동 파악 알고리즘 \r\n\r\n 이 프레임워크에서는 지금까지 말한 방법에 의해 얻은 자세나 위치정보로부터 행동 파악을 한다. 여기에서는 STI(State Transition Information)를 각 오브젝트에 대해서 순차적으로 기록해 그것을 이용해서 행동 파악을 한다. 또한, 검출 대상이 되는 행동마다 룰을 설정해서 검출한다. 예로서 개찰을 빠져나가 무단침입을 하는 행동의 STI를 표 2에 나타낸다. 또한 인터랙션 정보를 포함시킨 행동 파악 예를 그림 8에 나타낸다. \r\n그리고 표 2의 p(Li)(i=1, …, 6)는 각 위치의 오브젝트(인물)의 존재 확률이다. 그것들을 바탕으로 한 위치 추정의 결과가 ‘Transition of Locations’의 행에 나타내고 있다. \r\n평가 실험 \r\n\r\n 이번 실험에서는 엑스트라에 의한 모의행동을 비디오카메라로 촬영한 영상을 평가로 사용했다. 표 3에 이번 실험으로 판정을 시도한 행동 개요를 나타낸다. 실험에서는 각 이미지 신에 대응한 위치 정보를 미리 수동으로 설정했다. 또, 실험에서의 화상처리는 10fps로 했다. \r\n실험 결과보다 오클루드 된 보행자의 추적 성공률은 96%였다. 각 두 카메라 간의 인물 매칭 성공률은 91%였다. 각 자세에 대한 단일 카메라, 두 카메라 각각의 경우의 판별 성공률을 표 4에 나타냈다. 이 같은 결과는 위치를 고정밀도로 추정할 수 있고, 행동 파악의 정밀도도 향상한다는 나타낸다. 이번 실험의 행동 파악 예를 그림 9에 나타낸다. 또, 실험 동영상을 웹 사이트(HTTP://kmj. iis. u-tokyo. ac. jp/demo_its2011)에 공개하고 있다. \r\n위에서 언급한 바와 같이 이번 연구에서는 보행자의 오클루젼에 로버스트한 인물행동 파악 프레임워크의 개발 및 평가를 했다. 본 프레임워크는 역 구내의 인물감시 자동화 및 인물감시 비용 절감에 기여할 것으로 기대된다. 본 프레임워크에서는 오클루젼 환경 하에서도 보행자의 궤적추출이 로버스트하게 행해지는 것을 확인할 수 있다. \r\n참고문헌 \r\n1)N. Bird, S. Atev, N. Caramelli, R. Martin, O. Masoud, and N. Papanikolopoulos:Real time, online detection of abandoned objects in public areas. In Proc. of ICRA 2006., No.May, pp.3775-3780. IEEE (2006) \r\n2)M. Blank, L. Gorelick, E. Shechtman, and M. Irani:Actions as space-time shapes. IEEE transactions on pattern analysis and machine intelligence, Vol.29, No.12, pp.2247-2253 (December 2005) \r\n3)Y. Du, F. Chen, W. Xu, and W. Zhang:Interacting Activity Recognition Using Hierarchical Durational-State Dynamic Bayesian Network. Advances in Multimedia Information Processing-PCM 2006, pp.185-192 (2006) \r\n4)S. Ferrando, G. Gera, and C. Regazzoni:Classification of unattended and stolen objects in video-surveillance system. In Proc. of AVSS 2006., pp.21-21. IEEE (March 2006) \r\n5)Y. Hyodo, K. Fujimura, T. Naito, and S. Kamijo:Pedestrian Tracking Across Panning Camera Network. International Journal of Intelligent Transportation Systems Research, Vol.8, No.1, pp.10-25, February (2010) \r\n6)T. Ko:A survey on behavior analysis in video surveillance for homeland security applications. In AIPR 2008. 37th IEEE, pp.1-8. IEEE (2008) \r\n7)Y. M. Liang, S.-W. Shih, C.-C. Shih, H.-Y.M. Liao and C.-C. Lin:Learning atomic human actions using variablelength Markov models. Systems, Man, and Cybernetics, Part B: Cybernetics, IEEE Transactions on, Vol.39, No.1, pp.268-280, February (2009) \r\n8)H. C. Mo, J. J. Leou, and C. S. Lin:Human Behavior Analysis Using Multiple 2D Features and Multicategory Support Vector Machine. In IAPR Conference on Machine Vision Applications (2009) \r\n9)T. Nanri and N. Otsu:Unsupervised abnormality detection in video surveillance. In IAPR Conference on Machine Vision Applications, No.c, pp.574-577. Citeseer (2005) \r\n10)M. Spirito, C.S. Regazzoni, and L. Marcenaro:Avss 2005. IEEE conference on. Advanced Video and Signal Based Surveillance, IEEE Conference on, Vol.0, pp.195-200 (2005) \r\n<글 : 시큐리티월드 편집부> \r\n[월간 시큐리티월드 통권 제196호(sw@infothe.com)] \r\n<저작권자 : 시큐리티월드(www.securityworldmag.co.kr) 무단전재-재배포금지> |
||||||||||||||||||||
|
|