보안 제품정보


유치원 생활을 기록한 영상의 요약 2012.02.10

이시카와 토모야(Ishikawa tomoya), 왕 위(Wang yu), 카토 제인(Kato jien) / 나고야 대학

\r\n


\r\n

머리말

\r\n

유치원은 가정과는 완전히 다른 환경이기 때문에 원에서의 아이 모습을 보고 싶어 하는 보호자가 많이 있다. 그래서 몇 개의 유치원에서는 원격 감시 카메라 네트워크 시스템1)이 도입되어 라이브 영상뿐만 아니라 녹화 영상도 공개하고 있다. 그러나 복수의 카메라로 동시 기록된 녹화 영상은 하루에 총 수십 시간에 이르러, 보고 싶은 영상을 수작업으로 찾아야만 하는 문제가 있다. 그래서 우리는 원내 생활의 기록 영상으로부터 각 원아의 하루 다이제스트를 자동 생성하는 시스템의 실현을 목표로 하고 있다2).

\r\n


\r\n

관련 연구

\r\n

여러 가지 영상을 대량으로 축적할 수 있게 됨으로써 방대한 영상을 효율적으로 활용하기 위한 영상 편집 기술의 필요성이 요구되고 있다. 아마노 등에 의해 제안된 영상 편집 지원 시스템3)은 영상의 단편으로부터 ‘어떤 의미를 가졌다’고 정리되는 영상을 작성하는 것을 지원하고 있다. 동 시스템에서는 제작자의 의도를 시청자에게 정확하게 전하는 것을 목적으로 편집하는 경우에 존재하는 영상 문법이라고 부르는 어느 보편적인 규칙에 초점을 두고 있다.

\r\n

이것과 유사한 니시자와 등4)의 연구에서는 장면 간의 의미적인 관계를 정량화함으로써 영상의 편집을 시도하고 있다.

\r\n

이러한 영상 편집 기술의 연구와 관련해 방대한 영상으로부터 중요한 영상만을 모으는 다이제스트 생성에 대한 연구가 많이 진행되어 왔다. 일반적으로 다이제스트 생성의 어프로치는 대상이 되는 영상의 종류와 다이제스트 생성의 목적에 의존한다. 스포츠 영상을 대상으로 한 연구는 많이 행해지고 있으며 메타데이터를 부가해 전달된 야구나 축구 시합의 영상으로부터 동적으로 다이제스트를 작성하는 수법이 하시모토5)에 의해 제안되고 있다.

\r\n

한편, Nguyen 등6)은 멀티 스트림의 은닉 마르코프 모델에 의해 특징량 중량의 최적화를 실시하고, 야구 방송의 영상으로부터 하이라이트 장면을 추출하는 수법을 제안하고 있다. 또, 요리 영상이나 뉴스를 대상으로 한 연구도 존재한다7)~9). 이러한 연구는 모두 대상이 되는 영상에 고유 특징을 최대한으로 살려 처리의 정확도를 확보하며, 실용적인 시스템의 구축을 목표로 하고 있다.

\r\n

이번 연구는 유치원에서의 일상생활 영상을 대상으로 하고 있고, 선행 연구와 같은 식으로 가공되어 있지 않은 원본 영상을 다루며, 아래와 같은 2가지 특색이 있다.

\r\n
    \r\n
  • \r\n
    일상생활을 기록한 영상은 매우 방대하다.
    \r\n
  • \r\n
    스포츠 영상이나 요리 영상과는 다른 일상생활 영상은 다양한 영상이 무질서하게 배열되어 있다.
\r\n

다이제스트 생성 수법

\r\n

보호자에게 있어 유익한 다이제스트란 아이가 하루 동안 어떤 일을 하며, 자택에서의 모습과 어떻게 다른지가 반영되어 있는 것이다. 그러나 구체적으로 어떠한 장면을 열람하고 싶은가 라고 하는 점에서는 개인차가 크다. 그래서 우리는 하루에 있었던 여러 사건을 반영한 다이제스트를 목표로 한다. 이러한 다이제스트는 모든 보호자에게 있어 어느 정도 유익하다고 말할 수 있다.

\r\n

이러한 다이제스트를 실현하기 위해 원내 생활을 어느 의미적인 정리를 가진 이벤트로 분류한다. 가능한 한 세세하게 분류하는 것이 이상적이지만, 본 연구에서는 아래의 4 종류를 이벤트로서 정의한다.

\r\n
    \r\n
  • \r\n
    식사
    \r\n
  • \r\n
    수면
    \r\n
  • \r\n
    놀이
    \r\n
  • \r\n
    집단행동
\r\n

놀이는 소수의 원아에 의한 이벤트이고, 집단행동은 원아 전원이 참가하는 것이나 다수의 원아에 의한 이벤트를 나타낸다. 단, 사람이 없거나 청소 등 상기의 어느 이벤트에도 해당하지 않는 영상도 존재하지만 특별히 이벤트로서 정의하지 않는다.

\r\n

그림 1은 유치원의 약식도와 각 기기의 설치 장소를 나타내고 있다. 고정 감시 카메라를 보육실, 휴게실, 복도, 현관이라고 하는 원아가 자주 사용하는 장소를 중심으로 설치하여 원내 생활을 기록한다. 합계 7대의 카메라에 의해 원내 생활이 기록되지만, 특정 원아의 다이제스트 생성에 필요한 것은 그 원아가 촬영된 영상뿐이다. 각 원아가 언제 어느 카메라에 찍혀 있는지를 파악하기 위해 우리는 무선 태그를 이용한다. 사용한 무선 태그는 1초 간격으로 신호를 계속 송신하기 때문에, 원아들은 항상 몸에 달고 있는 상태로 하루를 보낸다. 카메라 옆에 병설된 무선 태그 수신기가 신호를 잡음으로써 원아의 위치 정보가 기록되는 구조로 되어 있다.

\r\n

그림 2에 다이제스트 생성까지의 흐름을 나타낸다.

\r\n

\r\n

① 무선 태그 해석에서는 방대한 기록 영상으로부터 특정 원아의 추적 영상이 생성된다.

\r\n

② 이벤트 식별에서는 기계 학습으로 구성한 식별기에 의해 각 1분 단위 영상이 4 종류의 이벤트로 분류된다.

\r\n

③ 영상 선택에서는 각 이벤트 영상 가운데 다이제스트에 플러스 되는 3분이 선택된다

\r\n

이상의 단계를 거쳐 12분의 다이제스트가 자동 생성되게 된다. 각 단계의 상세를 순서대로 설명한다.

\r\n


\r\n

무선 태그 해석

\r\n

그림 3은 특정 원아에게 대응한 로그 파일의 내용을 나타내고 있다. 그림 3의 x표는 각 시간에서 신호를 캐치한 수신기의 위치를 나타내고 있다. 이 그림에서 알 수 있듯이 무선 태그에는 두 종류의 불확실성이 있다. 첫 번째는 신호가 어느 수신기에도 수신되지 않는 데이터의 소실이다. 수신기의 독해 가능 범위는 주위의 장애물이나 사람의 배치, 날씨 등에 영향을 받아 예기치 않은 곳에 사각이 생긴 결과, 데이터의 소실이 발생한다. 또, 실내의 경우, 주위에 장애물이 없는 경우여도 독해 가능 범위가 찌그러진 형상이 되어, 태그가 아주 가까운 거리에 존재해도 신호를 읽어낼 수 없는 경우가 있다는 보고도 있다10). 두 번째는 단시간에 복수의 수신기가 수신하는 데이터의 진동이다. 몇 초간에 원아가 각 방을 몇 번이나 이동했다고 생각하는 것은 부자연스러우며, 복수의 수신기가 신호를 수신하는 범위가 존재한다고 생각할 수 있다.

\r\n

이번 연구에서는 1분 간격으로 대상 원아가 촬영된 카메라를 특정 한다. 그때, 2개의 불확실성에 대처할 필요가 있기 때문에 투표 방식에 의해 위치 정보를 결정한다. 어느 시간 구간 T에 있어서 위치 id[=1,2,…,7] 의 수신기가 캐치한 신호의 개수를 VT(id)라고 한다. … (1)

\r\n

이 때 수식 1을 만족시키는 위치 ID가 결정된다.

\r\n


\r\n

이벤트 식별

\r\n

취득한 특정 원아의 추적 영상을 각 1분의 단위 영상 마다 4 종류의 이벤트로 분류한다. 식별기는 기계 학습으로 구성하지만, 그 때 이용하는 특징과 식별 수법을 아래에 설명한다.

\r\n


\r\n

3종류의 화상 특징

\r\n

그림 4(F1)는 프레임간 차분의 결과이다. 연속되는 2장의 프레임 화상 (a)와 (b)의 차분을 빼, 물체 이동이 있었던 영역을 추출한다. 배경이나 정지 물체 부분은 제로(검은색), 이동 부분은 비제로(흰색)가 되기 때문에 물체 이동을 용이하게 추출할 수 있다. 이번 연구의 특징은 원아의 심한 움직임을 추출하는 것이 목적이다. 1분간 모든 프레임에 대해 흰 화소 수를 구하여 그 평균치를 특징량으로 이용한다.

\r\n

그림 4(F2)는 배경 차분의 결과이다. 프레임 화상 (a)와 미리 취득한 배경 화상 (c)와의 차분을 빼는 것으로 배경 이외의 이동 물체의 영역을 추출한다. 즉, 원아뿐만 아니라, 장난감·책상·이불이라고 하는 도구도 추출하게 된다. 그림 4(F3)는 흑색 검출의 결과이다. 원아 머리카락의 부분을 추출하는 것이 목적이다. 검은 옷 등도 검출된다고 하는 문제가 있지만, 몇 개의 특징 중 하나로 생각해 특별한 대책은 실시하지 않는다.

\r\n


\r\n

시간 특징

\r\n

식사나 수면은 이벤트의 발생 시간이 대략적으로 정해져 있다. 또한, 놀이나 집단행동은 랜덤으로 발생하지만, 식사나 수면 시간대에는 일어나기 어렵다고 말할 수 있다. 그래서 h시 m분의 단위 영상의 시간 특징을 다음 식으로 정의한다. … (2)

\r\n


\r\n

AdaBoost 에 의한 식별

\r\n

3종류의 화상 특징과 시간 특징으로부터 4차원 특징 벡터를 생성해, AdaBoost11)에 의해 식별기를 구성한다. AdaBoost는 복수의 약식별기로부터 식별 능력이 높은 식별기를 구성하는 수법으로, 각 약식별기가 랜덤인 식별기에 비해 조금이라도 우수하면 안정되어 좋은 결과를 얻을 수 있다고 하는 특징이 있다.

\r\n

이번 식별 수법에서는 N개의 학습 패턴에 중량 파라미터 ωn이 관련되어, 그 초기치로써 같은 중량 ωn(1)=1/N이 설정된다. 복수의 약식별기가 순차적으로 구성되어 가지만, 그 때 이전의 약식별기에서 잘못 식별한 학습 패턴에 대한 중량ωn(m)을 증가시켜, 올바르게 식별된 학습 패턴에 대해서는 중량을 바꾸지 않는다고 하는 처리를 함으로써 잘못 식별된 학습 패턴이 강조된다. 전체적인 식별 결과는 구성된 M개의 각 약식별기의 신뢰성을 고려해 결정된다.

\r\n

이상으로 설명한 방법에서 임의의 2클래스에 대한 식별기를 구성해, 4클래스에 확장한다. 임의의 2클래스 수식 3에 대한 식별기를 수식으로 나타낼 때, 다음 식의 one vs. all 타입의 규칙에 의해 4클래스의 식별을 실시한다. … (3)

\r\n


\r\n

영상 선택

\r\n

그림 5는 각 단위 영상에 이벤트 식별 결과가 부가된 모습을 나타내고 있다. 각 이벤트로부터 몇 분의 영상을 추출함으로써 다이제스트가 완성되지만, 그 선택 방법은 아래의 ①~④ 규칙에 준한다.

\r\n

\r\n

① 그림 안에 있는 시간적으로 고립되어 식별이 잘못될 가능성이 높은 영상을 제외한다

\r\n

② 무선 태그 처리의 결과, VT(ID)의 값이 작고, 위치 추정의 신뢰성이 낮은 영상을 제외한다

\r\n

③ 시간적인 치우침을 피하기 위해, 하루의 다양한 시간대의 영상을 선택한다

\r\n

④ 변화가 풍부한 다이제스트로 하기 위해, 프레임간 차분에 의한 특징량이 높은 값을 빼고, 움직임이 많은 영상을 선택한다.

\r\n


\r\n

이벤트 식별 실험

\r\n

2일 간의 영상 데이터에 의해 이벤트의 학습을 실시하고, 다른 1일간의 영상 데이터를 이용해 식별 테스트를 실시했다. 또, 각 이벤트의 학습에 사용한 단위 영상의 수는 식사, 수면, 놀이, 집단행동의 순서로 각각 213, 290, 600, 403개, AdaBoost의 식별에 이용한 약식별기는 10개이다. 카메라는 테크노 원(tec-1) 사의 41만 화소 CCD 제품인 DCT-301로, 320×240 픽셀, 1초당 8프레임의 영상이 저장된다. 무선 태그 시스템은 MEGRAS 사의 미약 무선 태그인 RFT03-RFT05를 이용한다.

\r\n

표 1은 3개의 화상 특징만을 이용해 이벤트 식별 실험을 실시한 결과이다. 인식률은 식사, 수면, 놀이, 집단행동의 순서로 각각 76.5%, 77.6%, 80.0%, 71.1%이며, 전체적으로는 76.6%이다. 이 결과는 화상 특징만으로 하루 이벤트의 80% 미만을 인식할 수 있다는 것을 나타내고 있다.

\r\n

표 2는 화상 특징과 시간 특징을 병용해 이벤트 식별 실험을 실시한 결과이다. 각각 인식률은 80.4%, 83.2%, 87.5%, 74.0%로, 전체적으로는 81.8%이다. 당연히 시간 특징을 포함하는 쪽이 인식률도 높으며, 모든 이벤트가 5% 전후 향상되었다.

\r\n

집단행동이 다른 이벤트에 비해 인식률이 낮아진 원인으로는 본 이벤트 중에는 합창·댄스·매트 운동이라고 하는 다양성이 있으며, 특징량 자체가 안정되어 있지 않다는 점을 들 수 있다. 또한, 원아에 비해 몸집이 큰 보육사의 존재가 식별률의 저하에 영향을 주고 있다는 것도 생각할 수 있다.

\r\n


\r\n

다이제스트 생성 실험

\r\n

어느 날 3명의 원아에게 무선 태그를 상비시켜, 각 원아를 대상으로 한 다이제스트 X, Y, Z를 생성했다. 다이제스트는 4개의 이벤트로부터 각 3개의 단위 영상을 추출한 합계 12분으로 한다.

\r\n

표 3은 생성한 다이제스트 X ~ Z의 이벤트 재현성을 나타내고 있다. 이벤트 재현성은 각 이벤트로부터 추출한 3개의 단위 영상 가운데 올바르게 선택된 비율을 나타낸다. 다이제스트 X와 다이제스트 Y에 관해서는 12개 모든 단위 영상을 올바르게 선택할 수 있었지만, 다이제스트 Y 에 관해서는 집단행동으로 잘못 추출된 영상이 1개 존재하며, 이 영상은 실제로는 놀이의 영상이었다. 본 실험에서 이벤트 재현율은 100%에 가까운 결과가 되었지만, 샘플수가 적기 때문에 이벤트의 재현이 매우 정확하게 실시할 수 있다고는 단언할 수 없다. 하지만, 영상 선택 시에 잘못 식별할 가능성이 높은 영상을 선택하지 않도록 하고 있기 때문에, 식별률 이상의 확률로 이벤트를 재현할 수 있을 것이다.

\r\n

\r\n

다이제스트의 시각적 평가를 실시하기 위해 본 수법으로 생성한 다이제스트 X, Y, Z 와는 별도로 사람 손으로 작성한 다이제스트 Xm, Ym, Zm를 준비해 보호자에게 비교하게 했다. 사람 손으로 다이제스트를 작성할 때는 아래의 점에 주의한다.

\r\n
    \r\n
  • \r\n
    하루 중에 있었던 사건을 잘 알 수 있도록 12개의 단위 영상을 선택한다
    \r\n
  • \r\n
    그 중에서도 변화가 많은 영상을 선택한다
\r\n

3개의 다이제스트를 각 8명의 보호자에게 열람하게 해, 아래 2개의 질문에 5단계로 평가를 받는다. 단, 보호자에게는 다이제스트의 자세한 내용은 알리지 않는다.

\r\n

(Q1) 좋았던 다이제스트는 어느 쪽인가?

\r\n

(Q2) 하루의 일을 잘 알 수 있었던 것은 어느 쪽인가?

\r\n

표 4는 회답 결과의 인원수 분포를 나타내고 있다. (Q1), (Q2) 모두 사람 손이 평가되고 있다. 그러나 같다고 회답한 사람이 제일 많고, 이번 수법이라고 회답한 사람도 5명 정도 있기 때문에, 이번 수법이 어느 정도의 평가를 얻고 있는지를 알 수 있다. (Q1)에서는 다이제스트의 종합적인 평가, (Q2)는 하루의 일이 반영되어 있는가 라고 하는 점에 특화된 평가이다. 회답 분포로부터도 알 수 있듯이, 그 선택 방식에는 개인차가 많다고 할 수 있다.

\r\n

비교 앙케트와 더불어 감상이나 의견을 요구했더니 ‘유치원 생활의 대략적인 모습을 알 수 있어 좋았다’, ‘평상시 볼 수 없는 아이의 행동을 볼 수 있었다’ 등의 적극적인 감상을 얻을 수 있었다. 한편으로 ‘자는 영상은 보고 싶지 않다’, ‘행사(집단행동)의 영상이 더 보고 싶다’, ‘1분간의 단위 영상은 좀 더 짧은 편이 좋다’라는 의견도 있었기 때문에, 각 이벤트 중에서 몇 분을 다이제스트에 보탤지를 보호자 스스로 선택하는 기능의 필요성을 느낄 수 있었다. 또, 일부에서는 ‘아이가 꾸중을 듣는 장면은 넣지 않았으면 좋겠다’, ‘아이가 즐겁게 생활하고 있는 영상으로 정리했으면 좋겠다’라는 의견도 있었다.

\r\n


\r\n

맺음말

\r\n

이번 연구에서는 유치원에서의 일상생활을 복수대의 감시 카메라로 기록하고, 특정 원아의 하루 다이제스트를 작성하는 수법을 제안했다.

\r\n

원아의 보호자가 열람하는 것을 상정했을 때, 다이제스트에는 모든 이벤트가 반영되어야 한다고 생각해 이벤트의 식별을 시도했다. 약 81.8%의 식별률을 얻을 수 있었고, 실제로 몇 개의 다이제스트를 생성해 양호한 이벤트 재현율을 확인할 수 있었다. 또한, 사람 손으로 작성한 다이제스트와 비교해, 본 수법의 유효성을 확인했다.

\r\n

향후의 과제로써는 보다 더 자세한 이벤트 식별의 실현을 들 수 있다. 또, 다이제스트의 성능 향상이라고 하는 점으로부터 화상 특징뿐만 아니라 음성 특징을 이용하는 것을 생각할 수 있다.

\r\n

보호자에 의한 앙케트의 일부에 ‘1개의 장면을 여러 각도에서 촬영해 주었으면 한다’, ‘원아의 표정을 알 수 있도록 카메라를 설치했으면 좋겠다’라는 데이터의 취득법에 관한 의견도 있었다. 이 내용에 대해서도 개선의 여지가 있다고 생각한다.

\r\n


\r\n

참고 문헌

\r\n

1) http://www.livekids.jp/ 영상 커뮤니케이션 시스템

\r\n

2) Y. Wang and J. Kato : “Digest Generation Using Surveillance Video in Kindergarten”, Proc. of the 5th International Conference on Frontier of Computer Science and Technology(2010)

\r\n

3) 아마노 미키, 우에하라 쿠니아키, 쿠마노 마사히토, 아라키 마스오, 시모죠 신지,