한국CISO협의회

보안 제품정보

소형·고속화를 실현한 얼굴 표정 추정 기술

2013.09.24

사람과 사람과의 커뮤니케이션에 있어서 서로의 얼굴에서 얻을 수 있는 시각정보는 중요한 역할을 한다. 마찬가지로 사람과 기계에 있어서도 기계가 사용자의 얼굴에서 얻을 수 있는 시각 정보를 센싱해 활용할 수 있으면 보다 원활하게 사람과 기계의 커뮤니케이션이 가능해 질 것이다. 우리는 오랜 기간 ‘사람과 기계의 베스트 매칭’을 목표로 해고 정밀도·소형·고속의 얼굴 이미지 센싱 기술을 제품화해 왔으며, 디지털 카메라를 비롯한 여러 가지 기기에 탑재하고 있다. 특히, 얼굴 표정 추정 기술은 사람과 기계의 원활한 커뮤니케이션 실현을 위한 중요 기술로 평가되고 있다.

\r\n

사쿠라기 미하루 ┃오무론(주)

\r\n

사람과 사람과의 커뮤니케이션에 있어서 ‘○○씨’, ‘여성’, ‘웃는 얼굴’과 같은 시각적으로 얻을 수 있는 정보는 중요한 역할을 한다. 마찬가지로 사람과 기계에 있어서도 시각 정보를 잘 전달·활용할 수 있으면 보다 원활하게 사람과 기계의 커뮤니케이션이 가능해 질 것이다. 그래서 우리는 ‘사람’이 ‘기계’에 맞추는 것이 아니라 ‘기계’가 ‘사람’에게 맞추는 ‘사람과 기계의 베스트 매칭’을 목표로 한 얼굴 이미지 센싱 기술을 개발·상품화했다.

\r\n

그 하나의 기술로서 지금까지 커뮤니케이션에서 중요한 팩터가 되고 있는 표정 중에서 가장 빈번하게 나타나는 웃는 얼굴에 주목해 웃는 얼굴 정도 추정 기술의 상품화를 실시했다1). 이 기술은 디지털 카메라의 웃는 얼굴 셔터나 웃는 얼굴 트레이닝 툴과 같은 새로운 어플리케이션을 창조해 왔다.

\r\n

그러나 사람과 기계가 원활한 커뮤니케이션을 실현하기 위해서는 웃는 얼굴 이외의 얼굴 표정 추정 기술이 필요하다. 그래서 웃는 얼굴 정도 추정 기술을 확장해 7가지 표정(기쁨/놀람/공포/혐오/분노/슬픔/무표정)을 추정하는 얼굴 표정 추정 기술을 개발했다.

\r\n

지금까지 얼굴 이미지로부터의 얼굴 표정 추정·측정에 대한 연구가 많이 실시돼 왔는데 그 방법은 1장의 정지 이미지를 이용해서 추정을 하는 것과 동영상으로 시계열 정보를 토대로 추정을 하는 것으로 크게 나눌 수 있다. 동영상으로 시계열 추정을 하는 방법은 정지 이미지를 사용하는 방법보다 일반적으로 추정 정밀도가 높다고 여겨지고 있으나 얼굴 기관의 이동량을 보고 있기 때문에 얼굴의 사전 등록이 필요한 점 등 제약도 많다2).

\r\n

때문에 정지 이미지에서 얼굴을 검출하고 검출한 얼굴에서 표정을 추정하는 소(小) 메모리와 고속의 알고리즘을 구축했으며 이는 얼굴 표정 추정 기술은 얼굴 이미지를 사전에 등록할 필요가 없고 동영상에서 얻은 이미지라도 실시간으로 처리할 수 있다. 또, 적은 메모리를 필요로 하기 때문 여러 가지 기기에 탑재가 가능하다.

\r\n

\r\n\r\n\r\n

\r\n

얼굴 표정 추정 기술의 개요

\r\n

얼굴 표정 추정 기술이란?

\r\n

Paul Ekman3)에 의하면 사람의 얼굴 표정은 보편적으로 ‘기쁨’, ‘놀람’, ‘공포’, ‘혐오’, ‘분노’, ‘슬픔’의 6가지 표정으로 분류된다. 여기서 설명하는 기술은 그림 1과 같이 6가지 표정에 ‘무표정’을 추가한 7가지 표정별로 표정 성분의 비율을 추정하는 기술이다.

\r\n

이를 이용한 입력은 1장의 정지된 얼굴 이미지이며 그 얼굴 표정의 추정 결과를 다음 2종류의 방법으로 출력한다.

\r\n

(1) 7가지 표정(기쁨/ 놀람 /공포/혐오/분노/슬픔/무표정) 각각의 표정 성분 비율을 출력

\r\n

가장 표정 성분이 높았던 표정을 해당하는 얼굴 이미지의 표정으로 해서 태그를 붙이면 이미지를 7가지 표정으로 분류할 수 있다. 예를 들면 그림 2의 경우 ‘기쁨’ 성분이 가장 높기 때문에 해당하는 얼굴 이미지는 ‘기쁨’이라고 태그를 붙일 수 있다. 또한, 각 표정의 성분 비율을 출력하기 위해서 그림 3과 같은 애매한 표정의 추정도 대응 가능하다(그림 2, 3).

\r\n

(2) Negative/Positive 표정을 -100∼100의 스코어로 출력

\r\n

지금까지 웃는 얼굴 정도 추정 기술에서는 ‘웃는 얼굴 정도’로서 0∼100의 스코어를 출력해 왔다. 여기서는 이 웃는 얼굴 정도 추정 기술의 확장으로 그림 4와 같이 ‘기쁨’의 표정을 Positive 표정이라고 해서 100 이하의 플러스 스코어로 출력하고 ‘공포’·‘혐오’·‘분노’·‘슬픔’의 표정을 Negative 표정이라고 해서 -100 이상의 마이너스 스코어로 출력한다. 이 Negative/Positive 표정의 스코어는 동영상에서 계속적으로 기록하고 마이너스 스코어가 계속되고 있는 상태를 ‘불쾌’나 ‘불만족’, 플러스 스코어가 계속되고 있는 상태를 ‘쾌적’이나 ‘만족’이라고 정의함으로써 얼굴 표정에 의한 쾌적도 추정이나 만족도 추정에 응용하는 것도 가능해진다.

\r\n

\r\n\r\n\r\n

\r\n

얼굴 표정 추정 알고리즘

\r\n

(1) 얼굴 표정 추정 알고리즘의 프레임워크

\r\n

그림 5에 얼굴 표정 추정 알고리즘의 프레임워크를 나타낸다. 우선 입력 이미지에서 ‘얼굴 검출’을 해 얼굴 영역의 이미지를 잘라 낸다. 그 후 잘라낸 이미지에서 ‘얼굴 기관’을 검출하고, 양쪽 눈의 가장자리 점과 입의 가장자리 점 좌표를 특정한다. 마지막으로 양쪽 눈, 입의 위치 좌표 부근에 있어 특징량을 추출해 미리 학습해 둔 각 표정 모델과 비교하는 것으로 ‘얼굴 표정 추정’을 한다. 　

\r\n

또한, 얼굴 표정 추정의 전 단계 처리인 ‘얼굴 검출’ 및 ‘얼굴 기관 검출’ 처리에는 우리의 독자 기술인 3D모델 피팅 기술과 통계적 식별 방법으로 개발한 소프트웨어 라이브러리를 사용했다.

\r\n

(2) 얼굴 표정 추정 알고리즘의 상세

\r\n

표 1에서 나타낸 것과 같이 각 얼굴 기관의 형상은 얼굴 표정에 의해 현저하게 다르다. 그래서 전 단계 처리의 얼굴 기관 검출 출력 결과인 양쪽 눈·입의 위치 좌표를 기초로 해 얼굴 표정이 현저하게 나타나는 얼굴 기관의 형상을 특징량으로 변환한다. 일반적으로 표정 인식 기술에 있어서는 가보 웨이브 레이트 변환을 특징량으로 사용하는 사례가 많다. 그러나 우리는 고속 연산이 가능한 Haar-like 특징량4)(그림 6)을 사용했다.

\r\n

또, 각 표정 성분을 추정하기 위해서 표정마다 클래스가 나눠진 다른 클래스 식별기를 사용해서 사후 확률을 산출해 각 표정 성분을 출력한다(그림 7).

\r\n

성능평가

\r\n

(1) 추정 정밀도

\r\n

독자의 표정 데이터베이스를 이용해서 7가지 표정의 분류 정밀도와 Negative/Positive 표정의 분류 정밀도를 조사했다. 또, 평가에서 사용한 표정 이미지 데이터는 복수의 피험자가 육안 판단으로 표정을 분류한 것이다. 각 표정 이미지에 대한 추정 결과 예를 그림 8에 나타낸다.

\r\n

7가지 표정 분류 정밀도에서는 가장 성분 비율이 높은 표정을 입력 얼굴 이미지의 얼굴 표정 분류 결과로 해 육안 판단으로 분류한 표정 결과와 일치하는 것을 정답으로 했다. 또, Negative/Positive 표정의 추정 정밀도에 있어서는 스코어가 플러스이면 Positive 표정(기쁨), 스코어가 마이너스이면 Negative 표정(‘공포’, ‘분노’, ‘혐오’, ‘슬픔’)으로 해서 7가지 표정 분류 정밀도와 동일하게 육안 판단으로 분류한 결과와 일치하는 것을 정답으로 했다.

\r\n

7가지 표정 분류 정밀도에서 ‘기쁨’ 데이터에서는 평균 88.5%, 그 이외의 표정에서는 평균 63.4%의 추정 정밀도였다. 또, Negative/Positive 표정 분류의 정밀도에서는 평균 94.5%의 추정 정밀도였다.

\r\n

(2) 메모리·속도

\r\n

메모리·속도의 측정 결과를 표 2에 나타낸다. 또, 측정 환경은 ARM920 200MHz이며 입력 이미지로는 VGA 이미지를 사용했다. 또, 전 단계 처리인 얼굴 검출·얼굴 기관 검출의 속도 및 메모리 사이즈 측정은 고려하지 않았다.

\r\n

\r\n\r\n\r\n

\r\n

\r\n\r\n\r\n

\r\n

얼굴 표정 추정 기술의 응용 예

\r\n

우리의 얼굴 표정 추정 기술은 소형·고속이기 때문에 다음에 나타내는 것과 같은 다양한 기기나 상황에서 활용을 기대할 수 있다.

\r\n

\r\n\r\n\r\n

\r\n

애완동물형 로봇에 탑재

\r\n

최근 고령자 간병이나 의료 현장에서 동물과 어울림으로써 얻을 수 있는 ‘힐링’으로 정신적인 문제를 해결하고자 하는 ‘애니멀·테라피’의 효과가 보고되고 있다. 그러나 애완동물이 달려들어 물거나 알레르기, 위생상의 문제, 주택 사정 등 모든 사람이 애완동물을 기르기는 어렵다. 그래서 동물을 애완동물형 로봇으로 바꿔 놓은 효과도 점점 기대가 높아지고 있다.

\r\n

그림 9와 같이 애완동물형 로봇에 얼굴 표정 추정 기술을 탑재할 수 있다면 지금처럼 로봇의 일방적인 반응이 아니라 간병이 필요한 사람의 감정을 고려한 반응이 가능해진다. 또, 간병이 필요한 사람도 마치 진짜 동물과 어울리는 감각을 얻을 수 있을 것으로 기대된다.

\r\n

이미지 추출·검색으로서 활용

\r\n

최근 디지털 카메라와 스마트 폰, SNS의 보급에 따라 방대한 데이터베이스에서 이미지를 검색·추출하는 작업이 많아지고 있다. 이러한 상황에서 자동적으로 이미지를 분류하고 원하는 이미지를 검색·추출할 수 있는 기술이 요구되고 있다.

\r\n

그림 10과 같이 얼굴 표정을 분류 카테고리의 요소나 검색 키 중 하나를 사용하면 예를 들어 ‘자신의 아이가 울고 있는 얼굴’과 같이 사용자가 원하는 이미지를 자동적으로 검색·추출하는 것이 가능해진다.

\r\n

장난감/게임 업계에서의 활용

\r\n

위에서 나타낸 것과 같이 본 기술의 특징 중 하나는 적은 메모리를 사용하고 있기 때문에 여러 가지 기기에 내장이 가능하다는 것이다. 따라서 장난감이나 게임기기에 탑재하는 것도 가능하다. 예를 들면, 그림 11과 같이 육성형 게임 또는 장난감에 탑재함으로써 표정에 따라 캐릭터의 성장도가 변화하는 것이 가능해진다. 또, 그림 12와 같이 스마트 폰이나 게임기로 촬영한 이미지를 표정에 따라서 게임 감각으로 얼굴 스탬프나 배경을 자동 변경하는 것도 가능해진다.

\r\n

쾌적/불쾌 센서로의 활용

\r\n

위에서 나타낸 것 같이 Negative/Positive 표정에 있어서 Negative 표정이 계속되고 있는 상태를 ‘불쾌’, Positive 표정이 계속되고 있을 경우를 ‘쾌적’이라고 하면 쾌적/불쾌 센서로서 활용하는 것이 가능하다. 예를 들면, TV나 조명 기기, 에어컨 등의 가전제품에 탑재해 ‘불쾌’를 센싱 할 수 있다면 사용자에게 항상 쾌적한 상태로 자동 조정하는 것이 가능해진다.

\r\n

\r\n\r\n\r\n

\r\n

만족도 조사로의 활용

\r\n

마케팅에 있어서 어떤 제품이나 콘텐츠의 만족도를 조사하는 대표적인 방법 중 하나로서 이용자에 대한 인터뷰나 앙케이트를 들 수 있다. 그러나 이 방법으로는 본심을 알아내기 어려워 참값을 얻을 수 없는 경우가 있다. 　

\r\n

사용자가 의식하지 않는 장소에 카메라를 설치해 사용자의 표정을 포착할 수 있다면 참된 만족도를 얻는 것이 가능해질 것으로 기대할 수 있다.

\r\n

이번 원고에서는 OKAOⓡ Vision 표정 추정 소프트웨어의 개요와 그 응용 예에 대해서 기술했다. 이 기술의 특징은 소형·고속화를 실현한 것이다. 따라서 장난감이나 게임 단말기, 스마트 폰이나 커뮤니케이션 로봇 등의 다양한 기기에 탑재가 가능하다. 즉, 얼굴 표정을 사용한 원활한 커뮤니케이션이 다양한 상황 아래에서 실현될 수 있다는 것을 의미한다.

\r\n

또, 각 표정 성분의 비율을 수치화함으로 분노하면서 놀라고 있는 등과 같은 혼재된 애매한 표정에 대해서도 추정이 가능하다. 앞으로는 개인 적응 기술을 도입해 표정이 잘 나타나지 않는 사용자에 대해서도 정확한 표정을 파악할 수 있도록 해 동영상 정보를 이용해 순간의 얼굴 기관 형상 변화로 발생하는 미세 표정을 포착하는 것을 목표로 계획하고 있다. 이들 기술 도입으로 한층 더 사람과 기계의 원활한 커뮤니케이션을 가능하게 할 것으로 기대된다.

\r\n

참고문헌

\r\n

1) 고니시 요시노리, 기타 : “실시간 미소도 추정”, 정보처리학회 인터랙션(2008)

\r\n

2) B.Fasal and J.Luettin：“Automatic facial expression analysis: A survey”，Pattern Recognition Vol.36, pp.259-275（2003）

\r\n

3) P.에크만, W. V.프리센(저) 구도 쓰토무(번역) : “표정 분석 입문-표정에 숨겨진 의미를 찾는다”

\r\n

4) P.Viola and M.J.Jones：“Rapid object detection using a boosted cascade of simple features”，IEEE CVPR （2001）

\r\n

[월간 시큐리티월드 통권 제200호(sw@infothe.com)]

\r\n

자료실

자료실

보안 제품정보