| 자가 학습형 지능형 CCTV 멀지 않았다 | 2014.10.02 |
자세추정을 효과적으로 학습하기 위한 방법 \r\n사람의 움직임 인식을 위한 모델 학습에는 샘플이 많을수록 인식 성능은 향상되는 반면 학습의 계산비용은 샘플 수에 따라서 기하급수적으로 늘어난다. 이번에 소개하고자 하는 것은 자세추정을 대상의 학습 샘플을 적절하게 선택해 인식률을 크게 저해하지 않는 선에서의 학습의 고속화다. 첫 번째는 클러스터링에 의한 선택으로 중복적인 학습을 피하는 방법이고 두 번째는 식별경계에서의 거리에 의한 선택으로 식별경계의 효율적인 갱신에 착안한 방법이다. 세 번째는 앞의 2가지 방법을 조합해 시간이 걸리는 클러스터링과 오검출 탐색에 있어서 자세추정문제에 특화된 특징량의 저차원화와 가지치기를 했다. 이에 대해서 실험을 한 결과, 통계적인 파라미터에 근거한 자세추정의 인식률 저하를 3% 이하로 억제했으며, 학습 시간을 79% 삭감할 수 있었다. \r\n우키타 노리미치┃나라 첨단과학기술대학원 \r\n기계 학습에 의해 사물을 인식·판별하는 능력은 향상의 일로를 걷고 있다. 그 배경 중 하나로 인터넷의 보급을 들 수 있다. 다양한 데이터가 인터넷을 통해서 교환되면서 학습 샘플의 수집이 쉬워졌다. 일반적으로 통계적인 파라미터에 근거하는 모델 학습에서는 학습하는 데이터가 많을수록 모델의 성능이 향상된다. 그러나 학습에 드는 계산 비용은 학습하는 샘플의 증가에 따라서 급격하게 커진다. 이러한 모델 학습이 만일 한번만으로 되는 것이라면 방대한 학습 시간이나 비용을 줄일 수 있다. \r\n그러나 실제로는 모델의 학습에는 조건이나 파라미터 등을 설정하고 계산기 실험을 통해 피드백을 받아 조건이나 파라미터 등을 재설정해 재실험을 한다. 이렇게 몇 번이나 실험을 되풀이해서 가장 좋은 정밀도를 보이는 조건이나 파라미터를 갖는 모델을 선택하는 것이 일반적이다. 방대한 학습 시간은 연구·개발에 있어서 큰 장해가 된다. \r\n\r\n
소개하고자 하는 고속 학습법은 학습 샘플의 수를 줄여 연구·개발에 도움이 된다. 하지만 단순히 학습 샘플을 줄이면 높은 인식률을 보증할 수 없기 때문에 학습 샘플을 적절하게 선택할 필요가 있다. 인식률을 향상시키는 샘플을 적절하게 선택할 수 있으면 적은 샘플로도 높은 인식률을 얻을 수 있다. 이 문제에 있어서 학습 시간과 인식률은 트레이드오프의 관계에 있어 양쪽의 균형이 필요하다. 그러나 복수 모델로부터 최고의 모델을 선택하는 단계에서는 인식률이 절대적일 필요는 없다. \r\n이 모델 선택에서 중요한 것은 복수 모델간에서의 인식률의 크기이다. 즉, 학습 샘플을 줄임으로써 전체 모델에서 인식률이 떨어졌다고 해도 인식률 최고의 모델이 전체 샘플 사용시와 선택 샘플 사용시에서 동일하면 복수의 모델을 선택 샘플만으로 고속 학습한 후, 검증용 데이터로 인식률 최고의 모델을 선택해 그 모델을 전체 샘플로 재학습하면 된다. 그 결과 전체 모델을 전체 샘플로 학습한 것과 인식률이 최고인 모델을 고르는 것이 동일한 결과를 얻을 수 있다. \r\n그러나 선택 샘플 사용 시에 인식률 최고 모델이 선택된다는 것을 보증하기는 어렵다. 이번 원고에서는 절대적인 인식률이 높을수록 선택 샘플에서도 인식률 최고의 모델을 얻을 수 있다고 가정하고 적절한 샘플 선택에 의해 고속 학습과 고인식률을 양립시킨다. \r\n\r\n \r\n 자세추정을 위한 인체모델 \r\n사람 자세추정을 위해서 이용하는 Pictorial Structure Model(PSM)1)을 소개한다. PSM은 사람의 외관이나 구조를 나타내는 모델이다. \r\n\r\n \r\n 이미지안에 중첩표시된 직사각형의 배치가 자세추정결과다. 직사각형과 그것을 잇는 점선이 각각 나무구조에 의한 인체 모델안의 파트(노드)과 파트간의 연결 관계(에지)를 나타낸다. \r\nPSM에 의한 자세추정의 개요를 그림 1에 나타낸다. 인체모델은 나무 구조의 파트(손, 발, 머리 등)를 노드에 연결하는 2파트의 상대적인 위치관계(거리, 각도 등)가 노드간의 에지에 대응한다. 이미지 내에 있어 각 파트의 위치는 각 파트에 있어 ‘추정위치의 모양 특징’과 ‘모델이 가진 모양 특징’과의 차이도 및 연결하는 파트i 와 j에 있어 ‘추정위치의 상대좌표’와 ‘모델이 가진 파트i 와 j의 상대좌표’와의 차이도(예: 몸통의 바로 위에 머리가 있으면 차이도가 떨어진다)를 전체 파트에서 총 합이 최소가 되도록 추정된다. 이 ‘모델이 가진 모양 특징’이나 ‘모델이 가진 파트 i와 j의 상대좌표’가 학습해야 할 모델의 파라미터다. \r\n\r\n
\r\n \r\n Latent SVM에 있어서의 모델 학습과 시간 비용에 관련된 문제점 \r\n자세의 식별적 모델 학습에서는 ‘인체 파트 위치가 어노테이션 된 포지티브 이미지’와 ‘사람이 보이지 않는 네거티브 이미지’가 주어진다. 이 학습 이미지에서 PSM의 파라미터가 학습된다. 이후, 포지티브 이미지 내에 있어 자세 영역을 포지티브 샘플이라고 부르고 네거티브 이미지 내의 임의의 영역(사람이 보이지 않는 영역)을 네거티브 샘플이라고 부른다. 포지티브 샘플로부터는 인체 파트의 외관 및 파트간의 위치관계를 학습 할 수 있다. 네거티브 샘플의 학습은 ‘이러한 외관은 (가령 사람과 유사해도) 사람 이외의 외관이다’라고 지정하는 것에 의해 사람과 파트의 외관이나 파트 배치가 유사한 사람 이외의 물체(배경 영역 등)와 사람과의 식별성을 향상시킨다. \r\n네거티브 샘플의 학습에서는 PSM을 사용해서 네거티브 이미지 내에서 사람 자세를 탐색한다. 네거티브 이미지 내에는 사람은 보이지 않기 때문에 탐색에 의해 검출된 영역은 ‘사람을 닮았지만 사람이 아니다’로 판단할 수 있어 오검출임을 알 수 있다. 이 오검출 영역을 네거티브 샘플로서 학습한다. 원고에서는 학습을 위해서 다음에 나타내는 Latent SVM2)를 사용했다. Latent SVM은 포지티브와 네거티브의 2클래스 식별로 널리 사용되고 있는 Support Vector Machine (SVM)을 반복적으로 샘플 학습하기 쉽도록 확장한 식별 모델이다. \r\n\r\n \r\n Step 1 : 포지티브 이미지와 소수의 네거티브 이미지에서 PSM의 파라미터를 Latent SVM에서 학습한다. \r\n\r\n \r\n Step 2 : 새로운 네거티브 이미지의 전영역을 대상으로 해서 PSM에서 사람 자세 검출하고, 그것의 Latent SVM의 스코어(사람의 자세와 같은 모습)를 얻는다. \r\nStep 3 : 스코어가 한계 값 이상의 영역을 오검출로 해서 네거티브 샘플로서 Latent SVM에서 재학습한다. \r\nStep 4 : 오검출이 사라질 때까지 Step 2, 3을 되풀이한다. \r\nStep 5 : 오검출이 사라지면 새로운 이미지를 얻어서 Step2에 돌아간다. \r\nStep 6 : 전체 네거티브 이미지에 대해 Step 2∼5를 되풀이한다. \r\n\r\n \r\n Latent SVM에서는 네거티브 이미지의 탐색과 학습이 이미지 수만큼 반복된다. 게다가 학습 시에는 네거티브 샘플을 하나씩 반복 학습해야 한다. 이 반복이 Latent SVM의 학습 시간의 대부분을 차지한다. 이 네거티브 샘플을 선택적으로 학습함으로써 자세추정의 학습을 고속화시킨다. \r\n\r\n \r\n 네거티브샘플의 선택법과 실험 \r\n이번 원고에서는 네거티브 샘플의 선택법을 3종류 소개하고 각각을 실험적으로 검증한다. 먼저 클러스터링에 의한 선택으로 특징공간 내에서 근방에 있는 복수의 네거티브 샘플을 학습했을 경우 장황한 학습이 된다는 점에서 착안했다. 두 번째는 식별경계에서의 거리에 의한 선택으로 보다 효율적인 식별경계의 학습에서 착안했다. 이 두 가지 방법을 조합시킨 다음 특징량의 저차원화나 탐색의 가지치기로 더욱 고속화시킨 것이 최후의 방법이다. \r\n이후의 실험에서 사용하는 네거티브 샘플 수를 결정하기 위해서 예비실험을 한다. 학습에 사용한 데이터는 포지티브 이미지에 Leeds Sports Dataset 이미지 중의 1,000장, 네거티브 이미지에 INRIA person Dataset 중의 배경이미지 1,218장이다. Leeds Sports Dataset에 포함되는 나머지 1,000장의 이미지를 테스트 이미지로 해서 방법의 평가를 했다. 그림 2의 왼쪽 그래프에 전체 네거티브 샘플을 학습했을 때에 오검출되는 인체영역의 수를 나타냈다. 가로축은 학습 순으로 왼쪽에서 오른쪽으로 이미지가 늘어서 있다. 이 그래프에서 학습의 초기와 중반 이후에는 오검출 수가 크게 다른 것을 알 수 있다. 이것은 학습초기의 모델이 미성숙해 오검출이 많이 발생하기 때문이다. \r\n그림 2에서 오른쪽 그래프는 왼쪽의 오검출 수를 적용시킨 그래프다. 이후의 실험에서는 특별한 언급이 없는 한 선택하는 네거티브 샘플 수는 이 식에 따른다. \r\n첫 번째 선택법인 클러스터링에 의한 선택에서는 클러스터링에 의해 특정공간 안에서 근방에 있는 네거티브 샘플을 모아 각 클러스터의 대표가 되는 네거티브 샘플을 선택해 학습한다. 클러스터링 하는 특징량은 파트마다의 외관(HOG3)특징과 파트간의 접속 관계를 나타내는 파라미터의 연결 벡터이다. 기본적인 학습 알고리즘은 앞의 Step 1∼6과 동일한데 Step 3에서는 전체 오검출의 특징량을 클러스터링 하고 그 대표 벡터만을 Latent SVM에서 재학습한다. 대표 샘플은 클러스터 중심에서 가장 거리가 가까운 샘플로 한다. \r\n학습한 모델에서의 자세추정의 인식률 및 학습에 걸린 시간을 계측했다(표 1). 비교 대상으로 전체 오검출을 학습하는 기존의 방법과 클러스터와 동일 수의 오검출을 랜덤하게 선택해 학습하는 방법을 준비했다. 표 1의 탐색 시간은 이미지 안에서 사람 영역(오검출)을 탐색하는 시간이다. 학습 시간이란 탐색에 의해 오검출을 얻은 후, Latent SVM에 네거티브 샘플을 주고 학습하는 시간이다. 총 시간은 이것들과 클러스터링에 걸린 시간의 합이다. \r\n\r\n
인식률에 관해서 제안법은 랜덤 선택과 비교해 동일 학습 샘플 수이면서 인식률이 2% 정도 좋다. 학습 시간은 전체 샘플을 학습했을 경우와 비교해서 89% 삭감할 수 있었다. 그러나 클러스터링의 시간이 더 걸려버렸기 때문에 학습 총 시간에는 전체 샘플을 학습했을 경우와 비교해 26%의 삭감에 머물러 랜덤 선택과 비교해 2.56배의 시간이 걸렸다. \r\n제안법 2에서는 식별경계에서의 거리가 먼 샘플을 선택한다. 이것에 의해 식별경계를 크게 갱신하고 특히 모델이 미성숙한 단계에 있어 학습의 효율화를 기대할 수 있다. 그림 3의 전형적인 예에서 빨간색의 네거티브 샘플을 학습해서 초록색의 식별경계를 갱신시킨다. 식별경계 가까이 3점의 네거티브 샘플을 학습했을 경우 새롭게 핑크의 경계를 얻을 수 있다. 그러나 그 후 전체 네거티브 샘플을 학습하면 경계는 빨간색과 같이 변화된다. 경계에 가까운 네거티브 샘플을 학습한 의미가 없는 것이다. 때문에 식별경계에서 먼 네거티브 샘플을 선택해서 쓸데없는 학습을 피해 학습의 고속화를 도모한다. \r\n기본적인 학습법은 앞의 Step 1∼6과 동일한데 Step 3에서는 Latent SVM의 스코어(인체의 자세와 같은 모습)를 정렬하고 스코어가 큰 것에서부터 네거티브 샘플을 선택한다. 식별경계에서의 거리를 계산할 때는 다음의 2종류의 거리척도를 테스트한 결과를 보면 전신의 파트 특징량. 앞에 나타낸 전 13,489차원의 특징량에 있어 경계에서 각 샘플까지의 거리를 사용한다. 이 거리는 latent SVM에서 학습된 PSM에 의한 사람 자세 검출 시에 직접 얻을 수 있다. 또, 분산의 총 합이 최대인 파트의 특징량. 모양 특징량의 차원마다 분산을 구하고 그 총 합이 최대인 파트의 특징량만으로 거리를 계산한다. 즉, 특징량의 전 13,489차원 중에서 분산 최대 파트의 모양 특징량에 상당하는 차원만을 추출해서 거리 계산을 한다. 분산이 큰 즉, 외관상 거리가 먼 샘플을 선택해 학습함으로써 핑크식별 경계를 생략하고 직접 빨간 식별경계를 학습한다. \r\n다양한 파트를 선택적으로 학습하는 것에 의해 효율적인 학습을 기대할 수 있다. 이 거리에는 latent SVM의 스코어 계산 과정으로 얻을 수 있는 각 파트의 모양 특징의 스코어를 그대로 이용한다. \r\n이상과 같이 위의 어느 거리 계산에 있어서도 사람 자세와 같음을 평가하는 과정의 결과를 그대로 추출함으로써 쓸데없는 계산 시간을 생략하고 고속인 처리를 실현한다. \r\n\r\n
위 2종류의 거리척도로 실험을 했다(표 2). 2종류 어느 쪽의 거리 계산에서도 학습 시간에 대해서는 전체 샘플 학습시보다도 빠르고 표 1에 나타낸 제안법 1의 결과와 비교해도 클러스터링에 걸리는 시간이 생략되는 만큼 고속화된다. 분산 최대 파트 학습은 전신 학습과 비교해서 약간 늦지만 분산 계산을 더 하기 때문이라 볼 수 있다. \r\n제안법 1에서는 대량의 오검출의 클러스터링에 시간이 지나치게 걸린다는 문제가 있으며 제안법 2에서는 특징량 공간에 있어서 근방에 위치하는 오검출이 네거티브 샘플로서 선택돼 버리는 문제가 있다. 이 문제를 해결하기 위해서 오검출을 식별경계에서의 거리에 의해 좁힌 후에 클러스터링을 한다. 클러스터링에 걸리는 시간을 줄이는 동시에 클러스터링에 의해 식별 공간 내에서 균등하게 샘플 선택을 하는 것이 목적이다. \r\n이 클러스터링을 더욱 고속화하기 위해서 HOG 특징량을 대폭으로 간략화했다. 원래 모델4)에서는 각 파트는 4×4의 셀로 구성돼 각 셀이 32방위의 히스토그램을 가진다. 이것을 셀 분할을 폐지하고 히스토그램 빈을 16방위로 줄임으로써 각 파트의 HOG를 16차원까지 저차원화했다. 이 HOG 특징에 새 파트와의 위치관계 파라미터를 더해 파트 수 26의 인체 모델에서 합계(16×26)+(4×25)=516차원의 특징량 벡터를 클러스터링 했다. \r\n또한, 총 학습 시간 중에서 큰비율을 차지하는 탐색 시간을 삭감하기 위해서 PSM에 의한 사람 자세 탐색의 가지치기를 한다. PSM에서는 전체 노드·링크의 비용을 가산하고 그 총 합을 사람 자세의 비용으로 하기 때문에 가산 도중에 비용이 커졌을 경우는 가지치기 즉, 사람 자세 평가를 중단할 수 있다. 가지치기의 한계 값에는 ‘하나 이전의 반복으로 선택된 네거티브 샘플 중에서 검출 영역의 비용이 최소인 값 Lmin’을 사용한다. \r\n단, 네거티브 샘플의 반복 학습에 의해 오검출되는 자세의 비용이 서서히 작아지는 것을 기대해 가지치기의 한계 값은 0.9Lmin로 했다. \r\n거리 계산에는 제안법 2의 실험 결과에서 가장 인식률이 높았던 전신의 특징량을 사용한다. 이 결과는 표 3을 통해 볼 수 있다. 비교 대상으로서 저차원화를 하지 않은 클러스터링만에 의한 선택 방법(제안법 1 : 표 1 안의 ‘제안법1’)과 전신의 특징량을 이용해서 식별경계에서의 거리에 따른 선택법(제안법 3 표 2 안의 ‘제안법 2(전신 거리)’ ‘제안법 2(분산 최대)’)의 결과도 게재한다. 인식률은 통상의 클러스터링과 비교해 상승되고(57.76→59.82) 거리만을 사용한 방법과 비교해도 향상되었다(58.83→59.82). \r\n\r\n 시간에 관해서는 전체 샘플 학습과 비교해 탐색 시간(2,362→1,368)과 클러스터링 시간 (3,791→46)을 삭감할 수 있었기 때문에 클러스터링 없음의 방법과 동등한 총 계산 시간을 얻을 수 있었다. 그 결과 전체 샘플 학습과 비교한 총 계산 시간의 비율은 21%(8,273→1,737)이 됐다. 마지막으로 선택된 소수 샘플로 학습했을 때 발생할 수 있는 ‘다른 모델간에 있어서의 인식률의 역전 현상’을 제안법에 의해 회피할 수 있는 것을 실험적으로 검증한다. 검증은 고속화가 실현된 제안법 2 및 제안법 3에 대해 했다. \r\n표 4에 나타내는 것과 같이 전체 샘플을 사용한 학습 결과에 있어서는 모델A가 가장 높은 인식률을 나타냈다. 이 결과로 실험적으로 제안방법에 의한 복수 모델에 있어서 최고 인식률의 보존을 검증할 수 있었다. \r\n학습 샘플을 적절하게 선택하는 것으로 학습을 고속화하는 방법을 제안했다. 연구 대상으로 정지된 이미지의 사람 자세추정을 선택하고 학습 시간의 대부분을 차지하고 있는 네거티브 샘플의 학습시에 제안법을 사용함으로써 고속화를 실현했으며 그 효과를 실험적으로 나타냈다. 클러스터링에 의한 선택과 식별경계에서의 거리에 의한 선택과 그것들을 조합시킨 다음 ‘자세의 특징을 고려한 특징량의 저차원화’와 ‘자세추정법의 특성을 이용한 탐색의 가지치기’로 고속화를 실현한 방법이다. \r\n학습 이미지 수 1,000정도의 사람 자세의 추정문제에 있어서 가장 고속의 방법으로 학습시간을 총 21%까지 고속화할 수 있었다. 또, 이 조건하에서 동일 수의 샘플을 랜덤하게 선택한 경우와 비교해서 4%이상 정밀도가 향상됐다. 그 결과 선택 샘플만에 의한 고속 학습의 결과(인식률 최고의 모델 선택)가 전체 샘플 학습의 결과와 동일한 것도 확인했다. \r\n\r\n \r\n 참고문헌 \r\n1)Pedro F.Felzenszwalb, Daniel P.Huttenlocher, Pictorial Structures for Object Recognition. International Journal of Computer Vision, Vol.61, No.1, pp.55-79 (2005) \r\n2)P e d r o F . F e l z e n s z w a l b , R o s s B . G i r s h i c k , D a v i d A.McAllester, Deva Ramanan, Object Detection with Discriminatively Trained Part-Based Models, IEEE Trans. Pattern Anal. Mach. Intell., Vol.32, No.9, pp.1627-1645 (2010) \r\n3)Navneet Dalal, Bill Triggs, Histograms of Oriented Gradients for Human Detection, CVPR (2005) \r\n4)Yi Yang, Deva Ramanan, Articulated Human Detection with Flexible Mixtures of Parts, IEEE Trans. Pattern Anal. Mach. Intell., Vol.35, No.12, pp.2878-2890 (2013) \r\n[월간 시큐리티월드 통권 212호 (sw@infothe.com)] \r\n<저작권자 : (www.securityworldmag.co.kr) 무단전재-재배포금지> \r\n |
|
|
|