보안 제품정보


SIFT-Grid를 사용한 향상된 얼굴인식 방법(2) - 다양한 환경변수를 고려해 인식률 향상 2014.05.16

\r\n

\r\n

\r\n

SIFT-Grid를 사용한 향상된 얼굴인식 방법(2) 다양한 환경변수를 고려해 인식률 향상

\r\n

얼굴인식 시스템은 IT 기술의 발전으로 정보 보안, 사람과 컴퓨터간의 상호작용(Human Computer Interaction) 그리고 상황 인식 컴퓨팅 (Context Aware Computing)등의 다양한 응용 분야에서 활용되고 있다. 하지만 얼굴은 조명, 포즈, 표정의 변화, 장신구의 착용, 시간의 변화에 따른 노화에 의해 다양한 형태로 변하기 때문에 얼굴인식을 통한 개인의 식별은 어려운 문제다. 그러므로 얼굴인식 시스템의 성능 향상을 위해서는 개인 얼굴의 변화에 강인한 특징을 추출해야 한다.

\r\n


\r\n

김 성 훈 │ 경희대학교 컴퓨터공학과 박사

\r\n

김 형 호 │ 세한대학교 컴퓨터교육과 교수

\r\n

이 현 수 │ 경희대학교 컴퓨터공학과 교수

\r\n


\r\n


\r\n


\r\n

실험 및 분석

\r\n

이번 연구의 첫 번째 실험은 제안된 얼굴인식 시스템에서 최적의 성능을 획득하기 위한 것으로 통합 템플릿의 구성을 위한 임계치 Td와 테스트 이미지의 식별을 위한 임계치 Ts의 값을 결정하기 위해 수행했다. 다음은 통합 템플릿의 구성을 위한 훈련 이미지의 수에 따른 성능을 평가했다. 그리고 기존의 다른 방법들과의 얼굴인식 성능 비교 결과를 기술하였고, 마지막으로 다양한 해상도의 얼굴 이미지를 대상으로 실험 결과를 확인했다. 실험에서 모든 SIFT-Grid 기반의 얼굴인식 시스템은 가로와 세로의 분할비율을 1/3로하고, 4개의 부분영역을 사용했다.

\r\n


\r\n

실험은 40명의 사람을 대상으로 총 400개의 이미지로 구성된 ORL 얼굴 데이터베이스[16]를 사용했다. 그리고 각 사람 클래스는 1부터 10까지의 인덱스를 가진 92×112 픽셀의 다른 이미지들로 구성되어 있다.

\r\n


\r\n


\r\n

최적의 임계치 결정 실험

\r\n

제안된 얼굴인식 시스템에 영향을 주는 두 개의 임계치 Td와 Ts의 최적화된 값을 결정하기 위해 다음과 같은 실험을 수행했다. 먼저 식별 과정에서 사용되는 임계치 Ts을 특정 값으로 고정하고, 통합 템플릿 구성에 사용되는 임계치 Td을 0.1부터 1까지 0.1씩 증가시키면서 템플릿의 구성에 사용된 특징점의 수와 인식율의 변화를 확인해 최적의 Td값을 결정했다.

\r\n

\r\n

이후 최적의 값을 기준으로 임계치 Ts에 다양한 값을 적용해 인식율의 변화를 확인했다. 실험은 ORL 데이터베이스의 얼굴 이미지를 60×74 픽셀로 축소해 사용했다. 훈련 과정은 10개의 인덱스 중 5개의 번호를 랜덤하게 선택해 각 얼굴 클래스의 훈련 이미지로 사용해 통합 템플릿들을 구성했다. 그리고 훈련 이미지로 포함되지 않은 200개의 얼굴 이미지들을 대상으로 구성된 통합 템플릿에 대한 얼굴인식의 성능을 평가했다. 이와 같은 통합 템플릿의 구성과 얼굴인식의 성능 평가를 각기 다른 랜덤 번호를 대상으로 10회 수행했다.

\r\n


\r\n

이때 식별 과정에서 사용되는 임계치 Ts을 0.5로 고정하고, 임계치 Td값의 변화에 따른 제안된 시스템의 성능 평가 결과에서 클래스 당 평균 특징점 수의 변화을 살펴보면 Td가 0.1에서 0.6으로 변경되는 동안 특징점의 수는 평균 35개씩 감소된 반면 0.6에서 0.8사이에서는 평균 103개 씩 급격하게 감소됨을 볼 수 있다.

\r\n

\r\n

또한, 평균 인식율의 변화는 특징점 수의 변화가 적은 Td의 0.1과 0.6의 범위에서 96.9%와 96.1% 사이의 인식율이 획득되었으며, 이후의 Td에서는 인식율의 낮아지는 폭이 큰 것을 볼 수 있다. 그러므로 임계치 Td의 값을 0.1과 0.6의 범위에서 결정할 때 제안된 시스템으로부터 최적의 성능을 획득할 수 있다. 이때 단지 인식율만을 고려할 경우 96.9%가 획득 되는 0.2을 Td의 값으로 결정하는 것이 합당하다.

\r\n


\r\n

그러나 특징점의 수는 인식을 위한 매칭 과정에서 테스트 이미지의 특징점과의 비교 횟수를 의미하기 때문에 클래스당 특징점의 수가 많을수록 계산량은 증가된다. 그러므로 이 연구에서는 제안된 실험으로부터 인식율과 계산량을 고려해 Td의 임계값를 0.6으로 결정했다. 이때 인식율은 평균 96.1%가 획득되며, 클래스당 특징점의 수는 가장 높은 인식율을 획득 할 때 보다 149개 감소된 평균 234.92개의 특징점이 사용된다.

\r\n


\r\n

다음 실험은 식별 과정에서 사용되는 임계치 Ts에 대한 최적의 값을 결정하기 위해 수행했다. 이 실험에서는 임계치 Td을 최적의 값인 0.6으로 고정하고 임계치 Ts의 값을 [0.05, 0.9]의 범위에서 0.05씩 변경해 실험을 수행하였으며 실험 결과를 살펴보면 살펴보면 Ts의 임계값이 0.35에서 0.7의 범위에 존재할 때 평균 91.95%와 96.1%의 인식율을 획득할 수 있음을 알 수 있다. 따라서 제안된 실험 결과를 바탕으로 최고의 인식율이 획득된 0.5를 Ts의 임계값으로 결정한다.

\r\n


\r\n

수행된 임계치 결정 실험에서는 제안된 얼굴인식 시스템의 인식율과 계산량을 고려해 두 임계치 Td와 Ts의 값을 각각 0.6과 0.5로 결정하였으며, 이후의 모든 실험들은 결정된 임계치를 바탕으로 수행된다.

\r\n


\r\n

훈련 이미지의 수에 따른 성능 평가

\r\n

이번 실험에서는 제안된 얼굴인식 시스템의 통합 템플릿 구성에 사용된 훈련 얼굴 이미지의 수에 따른 성능을 평가하기위해 수행했다. 실험은 60×74 픽셀의 ORL 데이터베이스를 대상으로 각 얼굴 클래스에 사용되는 훈련 이미지의 수를 2개부터 5개까지 1씩 증가시키면서 수행했다. 각 얼굴 클래스의 통합 템플릿은 실험의 각 훈련 이미지 수에 대응되는 수만큼의 랜덤 번호를 10개 중에서 선택해 구성하고 나머지 이미지들로부터 인식율을 계산한다.

\r\n

\r\n

이와 같은 실험 과정은 각 훈련 이미지의 수에 대해 10회씩 반복 수행했다. 그리고 SIFT-Grid 기반의 다른 얼굴인식 시스템인 Bicego[8]와 Cho[9]의 방법들에 대해 동일한 실험 과정을 수행해 비교 분석했다. 이때 Cho의 방법에서 보팅 과정에서 사용되는 임계값은 [9]의 논문을 참조해 0.3으로 결정했다.

\r\n

\r\n


\r\n

\r\n

실험 결과는 표 1과 같이 2, 3, 4 그리고 5개의 훈련 이미지 수에 대해 10회의 반복 실험에 따른 평균 인식율, 훈련 집합에 따른 인식율의 표준편차 그리고 하나의 얼굴 클래스 당 사용된 특징점 수의 평균으로 평가했다. 실험 결과 제안된 방법이 비교 방법들보다 모든 훈련 이미지 수에 대해 높은 인식율을 보이고 있으며, 훈련 이미지 수가 5인 경우에 대해 살펴보면 Bicego와 Cho의 방법보다 각각 4%와 1.7%로 향상된 96.10%를 획득했다.

\r\n


\r\n

그리고 표준 편차의 평가에서 제안된 방법이 다른 방법보다 낮음을 알 수 있다. 이는 제안된 템플릿 구성 방법이 훈련 데이터의 구성을 위한 이미지 종류의 차이가 인식율의 변화에 미치는 영향이 기존 방법보다 적음을 의미한다. 마지막으로 클래스 당 구성된 특징점의 평균수들을 살펴보면 제안된 방법이 기존의 방법보다 적은수가 사용됨을 알 수 있으며, 이를 기반으로 SIFT-Grid 기반의 얼굴인식 시스템에서 식별을 위해 수행되는 비교 횟수 계산했다.

\r\n

\r\n

align=center

\r\n

\r\n

비교 횟수는 식 (12)와 같으며, fktest_nunber와 fkn_nunber는 각각 테스트 이미지와 n번째 얼굴 클래스의 k번째 부분영역의 특징점 수를 의미한다.

\r\n


\r\n


\r\n

\r\n

테스트 이미지의 부분영역에 대한 특징점 수는 실험에 사용된 모든 얼굴 이미지의 부분 영역들의 평균인 22를 사용하였으며, 부분 영역은 4개이고, 전체 얼굴 클래스의 수는 40이다. 실험 결과 훈련 이미지의 수가 5인 경우, 제안된 방법이 기존의 방법보다 비교횟수가 43.37% 적음을 볼 수 있고, 그 결과로 제안된 템플릿 구성 방법이 인식과정에서 계산량을 효과적으로 감소시킬 수 있음을 알 수 있다.

\r\n

\r\n

\r\n


\r\n

다른 방법들의 얼굴인식 성능 비교

\r\n

이번 실험에서는 SIFT-Grid 기반의 특징, PCA, LDA 또는 PCA/LDA의 변형된 알고리즘을 통해 추출된 특징들이 얼굴인식의 정확도에 미치는 영향을 비교했다. 비교 방법은 얼굴인식의 실험에서 ORL 데이터베이스를 대상으로 각 클래스 당 5개의 이미지가 훈련 데이터로 사용된 [14]와 [15] 논문의 실험 결과를 참조했으며, 실험 결과를 살펴보면 SIFT-Grid 기반의 특징을 이용한 얼굴인식 시스템이 PCA, LDA 또는 PCA/ LDA의 변형된 알고리즘에 기반을 둔 특징을 이용한 것보다 높은 인식율이 획득됨을 볼 수 있다. 그리고 제안된 SIFT-Grid 기반의 얼굴인식 시스템이 다른 방법들보다 우수한 인식 성능을 가짐을 알 수 있다.

\r\n

\r\n

다양한 해상도의 얼굴인식 성능 비교

\r\n

다음 실험에서는 얼굴 이미지의 해상도에 따른 제안된 방법의 성능을 평가하기 위해 20×25부터 80×98픽셀까지 1.5%씩 증가된 7가지의 해상도와 ORL 데이터베이스의 원 해상도인 92×112픽셀에 대한 성능 비교를 수행했다. 실험 결과는 랜덤하게 선택한 5개의 이미지를 훈련 데이터로 사용하고, 해상도별로 10회 반복 수행한 결과로부터 평균 특징점수, 평균 인식율, 최대 인식율 그리고 최소 인식율을 확인할 수 있다.

\r\n


\r\n

실험 결과로부터 해상도가 증가됨에 따른 평균, 최대 그리고 최소 인식율의 변화를 살펴보면, 20×25부터 60×74픽셀의 해상도까지 인식율들이 증가됨을 볼 수 있으며, 60×74픽셀 이후의 해상도의 증가에 따른 인식율은 거의 변화가 없음을 볼 수 있다. 반면 클래스 당 특징점 수는 해상도가 커짐에 따라 최소 36개에서 최대 58개씩 증가되는 것을 볼 수 있다. 이 결과로부터 제안된 시스템은 얼굴 이미지의 해상도가 60×74픽셀일때 인식율과 계산량 측면에서 최적의 성능이 획득됨을 알 수 있다.

\r\n


\r\n

IFT 기반의 얼굴인식 시스템들은 PCA 또는 LDA 변환에 기반을 둔 전체론적인 방법(Holistic method)보다 조명, 포즈, 표정의 변화에 강인한 특성을 가지고 있다. 하지만 얼굴인식 과정에서 테스트 이미지와 훈련 데이터에 포함된 SIFT 특징점들 간의 반복적인 비교 연산이 수행되기 때문에 많은 계산이 필요하다.

\r\n


\r\n

이 연구는 SIFT-Grid에 기반을 둔 얼굴인식 시스템에서 계산량 감소와 인식율 향상을 목적으로 두 가지를 제시했다. 첫 번째 제시 사항은 한 얼굴 클래스의 다양한 훈련 이미지로부터 비슷한 SIFT 특징점들은 제거하고, 상이한 특징점들은 병합하는 통합 템플릿의 구성 방법이고, 두 번째는 구성된 통합 템플릿들로부터 테스트 이미지의 효과적인 식별을 위한 유사도 계산 방법이다.

\r\n


\r\n

제안된 얼굴인식 시스템에서 최대의 성능을 획득하기 위한 다양한 실험들의 수행 결과 통합 템플릿 구성을 위한 임계치 Td는 0.6, 유사도 계산 과정의 임계치 Ts는 0.5, 그리고 얼굴 이미지의 해상도는 60×74픽셀일 때 인식율과 계산량 두 측면에서 가장 효과적임을 확인했다. 그리고 기존의 SIFT- Grid 기반의 얼굴인식 방법과의 비교 실험 결과, 5개의 훈련 이미지가 사용된 경우 제안된 방법이 기존의 방법보다 43.37% 적은 특징점의 비교 연산이 수행되며, 최대 인식율은 98%로 2% 향상됨을 확인했다.

\r\n

\r\n

\r\n


\r\n

참고문헌

\r\n

[1] A. M. Martinex(2000), “Recognition of Partially Occluded and/or Imprecisely localized faces using a probabilistic approach”, EEE International Conference on Computer Vision and Pattern Recognition, 1, 712-717.

\r\n


\r\n

[2] C. Cruz, L. E. Sucar and E. F. Morales(2008), Real-time face recognition for human­robot interaction, EEE International Conference on Automatic Face Gesture Recognition, 1­6.

\r\n


\r\n

[3] C. W. Ngo, W. L. Zhao and Y. G. Jiang(2006), “Fast Tracking of Near-Duplicate Keyframes in Broadcast Domain with Transitivity Propagation”, ACM Multimedia, 845-854.

\r\n


\r\n

[4] D. G. Lowe (2004), Distinctive Image Features from Scale-Invariant Keypoints, International Journal of Computer Vision, 60(2), 91-110.

\r\n


\r\n

[5] D. L. Swets and J. Weng(1996), “Using discriminant eigenfatures for image retrieval”, IEEE Transactions On Pattern Analysis And Machine Intelligence, 18(8), 831-836.

\r\n


\r\n

[6] D. R. Kisku, M. Tistarelli, J. K. Sing and P. Gupta (2009), “Face recognition by fusion of local and global matching scores using ds theory: an evaluation with uni-classifier and multi-classifier paradigm”, IEEE Workshop on Computer Vision and Pattern Recognition, 60­65.

\r\n


\r\n

[7] H. Zhou, Y. Yuan and C. Shi (2009), “Object tracking using SIFT features and mean shift”, Computer Vision and Image Understanding, 113(3), 345-352.

\r\n


\r\n

[8] M. Bicego, A. Lagorio, E. Grosso, and M. Tistarelli (2006), “On the use of sift features for face authentication”, Workshop on Computer Vision and Pattern Recognition, 35­40.

\r\n


\r\n

[9] M. Cho, H. Park (2009), “A Robust Keypoints Matching Strategy for SIFT: An Application to Face Recognition”, Computer Science Neural Information Processing, Lecture Notes in Computer Science, 5863/2009, 716-723.

\r\n


\r\n

[10] M, Turk and A. Pentland (1991), “Eigenfaces for recognition”, Journal of Cognitive Neuroscience, 3(1), 71-86.

\r\n


\r\n

[11] P. N. Belhumeur, J. P. Hespanha, and D. J. Kriegman (1996), “Eigenfaces vs. fisherfaces: Recognition using class specific linear projection”, IEEE Transactions On Pattern Analysis And Machine Intelligence, 19(7), 711-720.

\r\n


\r\n

[12] W. -T. Chu and C. -H. Lin (2010), “Consumer photo management and browsing facilitated by near-duplicate detection with feature filtering”, Journal of Visual Communication and Image Representation, 21(3), 256-268.

\r\n


\r\n

[13] Y. B. Han, J. Q. Yin and J. P. Li (2008), “Human face feature extraction and recognition base on sift”, International Symposium on Computer Science and Computa- tional Technology, 1, 719­722.

\r\n


\r\n

[14] Y. Wang and Y. Wu (2010), “Face recognition using Intrinsicfaces”, Pattern Recognition, 43, 3580-3590.

\r\n


\r\n

[15] Y. Xu, D. Zhang, J. Yang and J. Y. Yang (2008), “An approach for directly extracting features from matrix data and its application in face recognition”, Neurocomputing, 71, 1857-1865.

\r\n


\r\n

[16] http://www.cl.cam.ac.uk/research/dtg/attarchive/f acedatabase.html

\r\n


\r\n


\r\n

[월간 시큐리티월드 통권 제208호(sw@infothe.com)]

\r\n


\r\n

<저작권자 : www.securityworldmag.co.kr) 무단전재-재배포금지>

\r\n