한국CISO협의회

보안 제품정보

인간과 공생하는 로봇 기술의 진화는 어디까지?

2015.11.04

인간 공생 로봇 EMIEW2의 대화시 상대 얼굴 움직임 인식

[시큐리티월드 히라마츠 요시타카·아키야마 야스히로·혼마 타케시·카게히로 타츠히코]
히타치 제작소에서는 2000년대부터 인간과 공생하는 로봇 기술의 개발이 진행되고 있으며 2005년에 EMIEW, 2007년에 EMIEW보다 소형화된 EMIEW2를 발표하고, 그 후에도 지속적으로 EMIEW2의 기체를 이용한 신기능을 발표하고 있다.

EMIEW2는 질문 응답에 있어 원활한 대화의 실현을 목표로 하고 있다.

\n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n

이를 실현하기 위해서는 EMIEW2의 대답에 대한 상대의 이해 정도의 파악이 필요하며, 이를 위해 얼굴의 제스처 인식을 개발하여 EMIEW2에 탑재했다.

얼굴 제스처 인식을 안정적으로 실현하기 위해 로봇과의 대화 상황을 고려하여 얼굴 검출의 타이밍을 제어하는 얼굴 움직임 검출 방식을 개발했다.

이번 연구에 의해 EMIEW2의 질문 응답 상황에서 안정적인 얼굴 검출이 가능하며, 얼굴 제스처 인식의 안정성을 향상시킬 수 있다는 가능성이 확인되었다.

고령화의 진행에 따른 인력 부족이나 생산 현장의 생산성 향상 등의 사회적이 과제에 대해, 로봇에 관한 주목도가 상승하고 있다.

일본 정부도 2014년 9월부터 ‘로봇 혁명 실현 회의’를 개최하여 로봇에 의한 산업혁명의 실현을 향해 움직이기 시작했다. 특히 공공, 의료/복지, 공장 현장에서 인간과 공생하며 활동하는 로봇의 실현이 기대되고 있다.

인간과 공생하기 위해서는 인간과 같은 공간에서 활동하고 인간과 상호 커뮤니케이션을 시행하며 자율적인 판단과 행동이 필요하다.

EMIEW2에서는 실내에서의 자율 이동이나 인간의 목소리를 구분하는 청각, 인간과의 대화, 환경 내에 있는 물체를 인식하는 기능을 실현하기 위한 연구 개발을 추진하고 있다.

대화 기능에서는 인간과의 원활한 커뮤니케이션을 목표로 연구를 진행하고 있다. 원활한 커뮤니케이션을 위해서는 유저의 발화내용을 인식하는 것과 더불어 유저가 행하는 제스처를 인식하는 것이 중요하다.

제스처 중에서도 얼굴의 제스처는 대화에 있어 유저의 이해 정도를 알기에 유효한 정보이다. 이번에 EMIEW2에 탑재된 카메라로 얼굴의 제스처를 인식하는 기능을 개발했다.

이번 호에서는 EMIEW2의 개요와 EMIEW2의 얼굴 제스처 인식에 사용되는 얼굴 움직임 검출 기술을 소개한다.

인간 공생 로봇 EMIEW2
EMIEW2는 ‘Excellent Mobility and Interactive Existence as Workmate’의 약자이며, 기민한 이동과 대화에 의한 행동이 기본 콘셉트다.

2007년에 발표한 EMIEW2는 오피스 빌딩 등의 환경에서 안전한 이용을 목표로 개발되었다.

그림 1에 나와 있듯이 신장 80cm, 체중 14kg으로 유아와 비슷한 사이즈이며, 만약 인간과 충돌하더라도 인간에게 가하는 피해가 적다. 2륜으로 인간과 동등한 이동속도인 최고 시속 6km를 실현하였으며, 정지 시나 작업 시에는 안전한 4륜 자세로 변형한다.

\n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n

소형 경량의 기체이기 때문에 ‘리모트 브레인’이라 불리는 정보 플랫폼과의 연계에 의해 인식, 지능 기능을 실현하고 있다.

그림 2에 나와 있는 리모트 브레인은 로봇 본체에 탑재된 센서 군에서 채취한 데이터(화상, 음성, 거리 정보 등)를 무선을 통해 백야드 측의 서버 군으로 전송하고, 거기서 계산기 부하가 높은 처리를 실행한다.

서버 군에서 인식, 해석 처리가 진행되고 습득한 결과를 로봇에게 피드백해 그에 따라 로봇이 동작을 한다. 백야드 측의 서버 군에서는 기능에 따라 리소스의 증강이 가능해졌다.

서버 군은 환경 내에 설치된 센서 군에서 채취한 데이터도 처리함으로써 로봇 본체에서 지각할 수 없는 공간의 정보를 파악 가능하다. 또한, 인터넷과 같은 외부 네트워크와의 접속도 용이하며 다양한 지식의 획득이 가능하다.

로봇 본체에 설치되어 있는 외계 측정용 센서로는 카메라, 마이크, 레이저 스캐너가 있다. 카메라는 얼굴에 설치되어 있으며 화상은 무선 네트워크로 백야드의 서버 군으로 전송된다.

얼굴에는 14개의 마이크가 장비되어 음원의 위치를 추정하고 잡음에 강한 음성 인식이 가능하다. 머리 부분에 레이저 스캐너가 장비되어 사전에 계측한 방의 지도와의 비교를 통해 자신의 위치를 추정하고 있다.

이와 같이 기체와 센서 군, 정보 플랫폼을 연계함으로써 외계를 인식하고 인간과 대화를 하며 적절한 행동을 실현하고 있다. 다음 장에서는 얼굴 제스처 인식을 탑재한 EMIEW2의 대화 시스템에 대해 설명하겠다.

EMIEW2의 대화 시스템
로봇과의 대화에서는 유저의 질문에 대해 로봇이 음성으로 대답하는 질문 응답이 메인이기 때문에, EMIEW2에서는 우선 질문 응답에 있어 원활한 대화 실현을 목표로 했다.

원활한 대화 실현에는 발화에 포함된 언어 정보와 발화나 신체 동작으로 나타나는 심적 상태 양쪽을 파악하는 것이 중요하다.

질문 응답의 경우에 심적 상태는 대답에 대한 유저의 이해 정도를 파악함으로써 대화를 원활하게 진행할 수 있다. 대답에 대한 유저의 이해 정도는 끄덕임이나 고개 갸웃거림과 같은 얼굴의 제스처로 나타나는 일이 많기 때문에, EMIEW2의 대화 시스템에 얼굴 제스처를 인식하는 처리를 탑재했다.

그림 3에 EMIEW2의 대화 시스템을 표시한다. 대화 시스템에서는 음성 이해부, 대화 처리부, 화상 인식부의 각 처리 블록이 연계하여 동작한다. 우선 음성이해부가 유저가 EMIEW2에 대해 발화한 음성을 처리하여 내용을 이해한다.

화상 인식부가 유저의 얼굴 제스처를 인식한다. 대화 처리부가 음성 이해부가 이해한 내용과 화상 인식부가 인식한 얼굴 제스처에 근거하여 발화할 내용을 결정하고 유저에게 출력한다. 이후 각 처리의 상세 내용을 설명하겠다.

\n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n

음성 이해부
음성 이해부에서는 EMIEW2의 14개의 마이크에 의해 입력된 음성 신호에서 음원을 분리하여 잡음을 제거하고 목적 방향의 음성 신호를 추출한다.

추출된 음성 신호에 대해 인간의 발화가 포함되었다고 여겨지는 음성 구간을 검출하고, 검출된 음성 구간에 대해 음성 인식에 의해 언어 정보를 획득한다. 획득한 언어 정보에서 언어 이해부가 발화 내용을 추정하여 언어 의미 표현으로 변환한다.

여기서 언어 의미 표현이란 대화 처리부의 내부에 있는 내부 상태를 갱신하기 위해 사용되는 정보다.

이번에 추정하는 내용은 발화가 속한 화제다. 화제를 추정하는 것은 유저가 음성 대화 시스템에 말을 걸 때, 어떤 1개의 발화 행위를 표현하는 발화라도 가지각색의 관용 표현이나 다양한 어휘가 발화되기 때문에, 유저의 발화 행위를 정확히 특정하는 목적으로 실행된다.

화제를 추정하는 기술로 Deep Neural Network(DNN)에 의해 화제를 분류하는 기술1)이 사용되고 있다.

화상 인식부
화상 인식부에서는 얼굴 제스처를 인식하고 인식된 제스처에서 상대의 이해 정도를 추정했다. 그 흐름을 그림 4에 표시했다.

우선 EMIEW2의 카메라를 통해 입력된 화상에서 얼굴을 검출하고 그 움직임을 검출해봤다. 이어서 검출된 얼굴의 움직임에서 끄덕임이나 고개 갸웃거림 등의 반응을 결정했다.

결정된 반응과 EMIEW2의 발화 내용에서 사전에 예측한 반응과 비교하여 이해 정도를 추정한다. 얼굴의 검출에서는 대화 상태에 근거하여 처리를 한다. 상세 내용은 다음 장에서 설명하겠다.

대화 처리부
대화 처리부에서는 음성 이해부의 언어 의미 표현과 다음에 서술할 화상 인식부의 이해 정도에 근거하여 내부 상태를 갱신한다.

상태의 갱신은 대화 상태에 따라 제어된다. 대화 상태는 EMIEW2의 대화에 있어 그 상태를 표현한 것으로, 유저의 발화를 받아들이는 상태(Listen)나, EMIEW2 자신이 발화하는 상태(Answer), 어느 쪽에도 속하지 않는 상태(Idle) 등 3개 상태가 있다.

음성의 검출이나 내부 상태에 근거하여 상태가 갱신된다. 발화 내용 선택부가 내부 상태에 근거하여 발화할 내용을 결정한다. 발화 내용의 문자열 텍스트를 음성 합성을 통해 음성 파형으로 변환하고 EMIEW2의 마이크를 통해 유저에게 출력한다.

얼굴 제스처 인식
기존의 얼굴 제스처 인식에서는 얼굴 영역 전체의 추적이나 얼굴 영역 내의 특징점인 옵티컬 플로우(Optical Flow)가 사용되고 있다.

어떤 처리든지 사전에 얼굴 영역을 확실히 검출해둘 필요가 있다. 현재의 얼굴 검출 기술의 대부분은 어피어런스 베이스(Appearance Base) 수법이며, 폭 넓은 방향의 얼굴에 대응할 경우 식별기의 학습용으로 얼굴 방향, 배경, 밝기 등을 변동시킨 대량의 학습 데이터가 필요하고 수집 비용이 크다.

\n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n

EMIEW2에서는 그림 5에 나와 있듯, 유저는 EMIEW2 앞에 서서 대화하기 때문에 그 신장 차로 인해 위로 바라볼 때의 얼굴이 촬영되는 경향이 높다. 얼굴 방향의 변동은 신장의 개인 차이가 있기 때문에 폭이 넓다.

또, 이번에 대상으로 하는 질문 응답에서는 EMIEW2의 대답을 듣고 반응할 때까지 일정 시간이 있기 때문에, 그 사이에 곁눈질이나 다른 곳을 볼 때가 있다. 따라서 얼굴 방향은 일정하지 않다.

이와 같이 EMIEW2와의 대화에서는 검출해야 할 얼굴 방향이 폭 넓고, 그에 대응한 얼굴 검출기를 생성하는 데 있어 학습 데이터의 수집 비용 크다.

우리들은 로봇의 대화라는 상황을 가정하고 얼굴 검출 타이밍을 제어하는 방식을 개발했다.

질문 응답의 일련의 흐름을 상태로 나누어 생각하고, 분할된 상태에 있어 상정되는 얼굴 방향을 고려함으로써 얼굴 방향의 변동에 강하지 않은 얼굴 검출기라도 EMIEW2의 질문 응답에 있어 안정된 얼굴 검출을 실현해냈다.

얼굴 검출 후에는 얼굴 영역 내에서 특징점을 추출하고 그 옵티컬 플로우로 상대의 반응을 끄덕임, 고개 갸웃거림, 그외 어떤 것인지를 결정한다.

대화 상태에 근거한 얼굴 검출 제어
\n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n

EMIEW2의 질문 응답의 일련의 시퀀스를 그림 6에 표시한다.

① 유저가 EMIEW2 앞에 선다.
② EMIEW2에 대해 질문을 발화한다.
③ 발화 완료 후 EMIEW2의 대답을 듣는다.
④ EMIEW2의 대답을 듣고 반응한다.

이 중 EMIEW2에 대해 질문을 발화하고 있을 때는 EMIEW2의 얼굴을 볼 때가 많을 것으로 보인다. 특히 신장 차이가 있는 유저는 얼굴을 가까이 할 때도 많이 있다.

이는 얼굴 방향이 보다 정면에 가까워지는 것이나 마찬가지다. 따라서 질문을 발화하고 있는 사이에 얼굴을 검출함으로써 안정된 얼굴 검출이 가능하다.

질문을 말하고 있을 때를 판별 가능한 정보로서 앞서 설명한 대화 상태를 사용할 수 있다.

그림 6에 나타낸 것처럼 ① 단계에서는 대화 상태가 idle에서 listen이 되고, ② 단계의 질문을 다 들었을 때 대화 상태는 listen에서 answer가 되고, ③ 단계에서 대답이 끝난 후에 대화 상태는 answer에서 listen이 된다.

질문을 발화하고 있을 때는 대화 상태가 answer가 되기 전에 일정 시간의 listen 상태일 때이며, 이 때 안정된 얼굴 검출이 가능하다. 대화 상태는 주로 음성 구간의 검출로 갱신되지만, 이 검출 처리에서는 음성이 끝난 위치를 정확히 검출할 수 없다.

즉, 대화 상태에서는 질문 발화가 끝난 타이밍을 정확히 파악하는 것은 어렵다. 거기서 대화 상태가 listen 상태가 된 타이밍에 얼굴 검출을 개시하고, 얼굴 검출은 대화 상태가 answer가 될 때까지의 사이에 계속 실행한다.

또, 얼굴의 오검출의 영향을 저감하기 위해 검출된 얼굴이 일정 시간 소정의 범위 내에 없을 때는 검출된 영역을 제거한다. 이것은 발화 중에는 얼굴 위치가 크게 움직이지 않는다는 것에 근거한다.

\n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n

그림 7에 얼굴 제스처나 인식의 시퀀스 그림을 나타낸다. 우선 대화 상태가 Listen이 된 타이밍에 얼굴 검출이 실행된다.

얼굴 검출은 대화 상태가 Answer가 될 때까지 계속 실행된다.

대화 상태가 Answer가 된 타이밍에서 최신 얼굴 영역에 대해 움직임 검출부가 처리를 개시한다.

움직임 검출부의 처리가 완료된 후 움직임 이해부가 검출된 움직임에서 얼굴의 반응을 끄덕임, 고객 갸웃거림, 그 외에 어떤 것인지를 결정하고 EMIEW2의 발화 내용에서 사전에 예측한 반응과 비교해서 이해 정도를 추정한다.

EMIEW2의 발화가 끝나고 대화 상태가 answer에서 listen으로 변경된 타이밍에 얼굴 검출이 개시된다. 또한 이해 정도의 추정 결과, EMIEW2의 발화가 발생할 경우에는 대화 상태가 answer로 변경되어 그 때 최신 얼굴 영역에 대해 움직임 검출부가 처리를 개시한다.

평가 실험
유저가 질문을 발화 중인 얼굴 검출 성능과 발화가 끝나고 반응하기 직전까지 그 사이에 얼굴 검출 성능을 비교함으로써 유저가 발화 중에 얼굴 검출을 하는 것의 유효성을 평가한다.

평가에는 그림 5에 나온 것처럼 위치 관계로 유저와 EMIEW2가 대화중에 EMIEW2의 카메라로 촬영한 영상을 사용했다.

유저와 EMIEW2와의 거리는 1m로 했다. 이것은 니시데2)가 일상적인 대화가 이루어지는 거리를 50cm~1.5m로 정의하고 있으며, 또 인간이 EMIEW2 앞에 섰을 때 EMIEW2의 얼굴을 자연스럽게 확인할 수 있는 거리가 거의 1m 정도라는 점에서 이 거리로 설정했다.

EMIEW2에 탑재한 카메라는 화각이 수평 88도, 수직 65도이며 해상도 1,280×720, 10fps로 영상을 촬영했다. 유저 3명에 의해 합계 28회의 질문 응답하는 장면을 촬영한 영상을 평가에 이용했다.

1회의 질문 응답의 영상에서는 유저가 발화 중과 유저가 반응하기 직전의 모습이 모두 포함된다. 입을 열고 발화를 시작한 타이밍부터 입을 닫은 타이밍까지를 유저가 발화 중의 화상으로 이용한다.

또, 입을 닫은 타이밍부터 얼굴의 제스처가 발생할 때까지를 유저가 반응하기 직전의 화상으로 이용한다. 각각의 화상에 대해 얼굴 검출을 실행했다.

얼굴 검출에는 일반적으로 자주 이용되고 있는 OpenCV의 얼굴 검출을 이용했다3). 유저가 발화 중과 유저가 반응하기 직전, 각각에 있어 얼굴 검출이 모든 데이터로 성공한 확률로 평가했다.

결과를 표 1로 정리했다. 유저가 발화 중인 쪽이 얼굴 검출 성능이 뛰어났다. 유저가 발화 중에 검출한 얼굴 영역을 사용하는 편이 안정된 얼굴 제스처 인식이 가능했다. 촬영된 화상의 예시를 그림 8에 표시했다. 유저가 EMIEW2에 발화하고 있을 때는 머리를 기울여 EMIEW2에 시선을 향하는 경향이 높았다.

\n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n



	표 1

한편, 질문이 끝나면 고개를 위치로 되돌리는 경향도 높았다. 또, 대답을 듣고 있을 때는 그 내용을 이해하려고 시선을 돌릴 경우나 처음부터 고개를 기울고 있는 경우를 볼 수 있었다.

\n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n

또한, 유저가 EMIEW2에 발화하고 있을 때는 얼굴이 정면을 향하는 경향이 높았다. 이는 실험에 참가한 유저가 EMIEW2와 같은 로봇에 대해서도 인간과의 대화처럼 상대를 향해 발화하기 때문에 이러한 경향이 높았던 것으로 보인다.

이러한 대화 상태에 근거한 얼굴 검출 제어를 애매한 대화 표현을 이해하면서 인간의 반응에 대해 적절한 응답을 하는 데모4)에 장착하여 안정적인 동작을 확인했다.

마지막으로
이번 연구에서는 EMIEW2의 개요와 EMIEW2의 얼굴 제스처 인식에 사용되는 얼굴 움직임 검출 기술을 소개했다.

EMIEW2의 대화에서는 우선 질문 응답에 있어 원활한 대화의 실현을 목표로 하고 있다. 그 실현에는 EMIEW2의 대답에 대한 상대의 이해 정도를 파악할 필요가 있으며, 이를 위해 얼굴의 제스처 인식을 EMIEW2에 탑재했다.

얼굴 제스처 인식을 안정적으로 실현하기 위해 로봇과의 대화라는 상황을 고려하여 얼굴 검출 타이밍을 제어하는 얼굴 움직임 검출 방식을 개발했다.

이 방식에 의해 EMIEW2의 질문 응답 상황에서 안정된 얼굴 검출이 가능해졌으며, 얼굴 제스처 인식의 안정성을 향상시킬 수 있다는 가능성이 확인되었다.

원활한 대화의 실현에는 아직 기술 과제가 많다.

예를 들어 EMIEW2도 유저에게 자신의 상태를 알리게 한다면 대화가 보다 원활하게 될 것으로 보인다.

자신의 상태를 알리기 위해서는 인간이 평소 하고 있듯이 적절한 타이밍에 적절한 반응을 할 필요가 있다.

또, 현재 상황과 상정한 시나리오에 따라 자율 행동하여 인간과의 인터랙션(Interaction)을 실현하고 있지만, 실제 현장에서는 상정하지 못한 상황이 압도적으로 많고 그런 상황에 대응할 필요가 생긴다. 향후 이들을 실현하기 위해 연구 개발을 추진해 나가겠다.

또한 EMIEW2는 국립 연구 법인 에너지/산업 기술 종합 개발 기구(NED0)의 위탁 사업 ‘차세대 로봇 실용화 프로젝트(프로토 타입 개발 지원 사업)’의 일환으로 개발된 ‘EMIEW’의 기술을 베이스로, 더욱 기술을 발전시킨 것이다.

참고 문헌
1) 혼마 등 : “음성 대화에서의 이용을 목적으로 한 Deep Neural Network에 의한 유저 발화의 토픽 분류 방법의 검토”, 정보 처리 학회 연구 보고, Vol.2014-SLP-101, No.17 (2014)
2) 니시데 : “인간과 인간 사이의 거리”, 인간과 심리, 생태의 건축 계획(1), 건축과 실무, No.5 (1985)
3) Lienhart, R.，etc.：“Empirical analysis of detection cascades of boosted classifiers for rapid object detection.”，DAGM 25th Pattern Recognition Symposium, p297-304 (2003)
4) “히타치 제작소 뉴스 릴리스 웹 사이트”
http://www.hitachi.co.jp/New/cnews/month/2014/05/0520.html

[글 시큐리티월드 히라마츠 요시타카, 아키야마 야스히로 히타치 제작소 중앙 연구소 지능 시스템 연구부 연구원·혼마 타케시 히타치 제작소 중앙 연구소 지능 시스템 연구부 주임 연구원·카게히로 타츠히코 히타치 제작소 중앙 연구소 지능 시스템 연구부 UL / 주임 연구원(sw@infothe.com)]

[월간 시큐리티월드 통권 224호 (sw@infothe.com)]

<저작권자 : (http://www.securityworldmag.co.kr) 무단전재-재배포금지>

자료실

자료실

보안 제품정보