보안 제품정보


자연 특징점 랜드마크 데이터베이스에 의거하는 정지화상에서의 카메라 위치·자세 추정 2009.07.07

디지털 카메라나 휴대폰에 내장되어 있는 카메라로 촬영된 한 장의 정지화상을 입력한 카메라의 위치·자세를 추정하는 방법에 대해서 알아보자. 이번 연구에서는 미리 전방위형 멀티 카메라 시스템을 이용하여 촬영한 전 방위 동영상에서 자연적인 특징점을 추출, 이것을 랜드마크로 데이터베이스에 등록함으로써 정지화상을 대상으로 한 카메라의 위치·자세를 추정했다. 그리고 추정된 카메라 매개변수를 이용하여 입력화상 상에 경로안내 정보 등의 주석을 중첩 표시하여 사용자에게 제시함으로써 현실감 있는 내비게이션으로의 응용이 가능하다는 점을 나타냈다.


머리말

휴대전화 상에서 동작하는 내비게이션 시스템이나 사용자의 현재 위치를 알려주는 위치추적 서비스는 이미 실현되고 있다. 이 서비스는 휴대전화에 내장된 GPS나 복수 기지국에서의 전파 강도를 이용하여 사용자의 위치를 알아내는 것으로 2차원 지도상에서 경로 안내나 위치정보를 알려준다. 그러나 GPS나 전파강도에 의한 사용자 위치의 측정 결과에는 10~100m 정도의 오차가 있고 또, 실내환경 등과 같이 GPS에 의한 전파가 폐쇄된 환경인 경우에는 측위 정밀도가 대폭 저하되는 것이 문제이다. 이로 인해 이번 연구에서는 한 장의 화상 중에서 사전에 등록된 ‘자연특징점 랜드마크’를 추출하는 것으로 실내외를 불문하고 사용자가 가진 카메라의 위치·자세를 고정밀도로 추정하는 방법을 제안한다. 이 방법을 이용하면 카메라의 위치뿐만 아니라 자세정보도 측정 가능하기 때문에 2차원 지도와 비교하여 보다 직감적인 경로 안내를 실현하는 확장 현실감 내비게이션으로의 응용이 가능하게 된다.

확장 현실감 내비게이션을 실현하기 위한 카메라의 위치·자세 추정방법으로서는 GPS에 자이로나 컴퍼스 등의 복수 센서를 조합하여 사용하고 있는 방식이 제안되고 있지만, 센서의 가격이나 사이즈 등의 문제 때문에 휴대전화에서 사용하기는 어려울뿐만 아니라 실내에서 사용하는 것도 어렵다. 한편 이번 연구와 마찬가지로 입력화상 중의 자연특징점이나 모서리 등의 자연 특징을 이미 구축된 데이터베이스 안의 정보와 조합하는 것으로 특수한 센서를 이용하는 것이 아닌 카메라 위치·자세를 추정하는 방법도 이미 제안되어 있지만, 지금까지 대부분의 방법은 동영상에 의한 입력을 전제로 한 것이고 계산기 리소스가 한정된 휴대전화에서 계산 부하가 큰 이들 방법을 동작시키는 것은 어렵다. 이에 이번 연구에서는 아래와 같은 구조로 정지화상 한 장을 입력한 카메라 위치·자세 추정을 하는 것으로 사용자가 가지고 있는 단말기 상에서의 계산 가격을 최소한으로 줄였다.


(1) 사용자는 휴대전화에 내장된 카메라에서 정지화상을 촬영하고 GPS나 전파강도에 의한 위치정보와 함께 사진을 서버에 송신한다.

(2) 서버는 사전에 구축되어 있는 환경의 데이터베이스와 사진을 조합하여 카메라 위치·자세를 추정한다.

(3) 서버는 수신한 사진에 내비게이션 정보 및 각종 가이드 정보를 합성하고 사용자에게 다시 보낸다.


앞서의 구조에 의해 현재 이미 시중에 판매되고 있는 카메라가 딸린 휴대전화나 혹은 비교적 저렴한 가격의 저기능 휴대단말기 상에서도 확장 현실감에 의한 내비게이션을 실현하는 것이 가능하다.

이 방법의 처리 흐름을 <그림 1>에 나타냈다. 이번 연구에서는 먼저 대상이 되는 환경을 전방위 카메라에서 이동 촬영하고, 오프라인 처리에서 Structure From Motion(이하, SFM)에 의한 3차원 복원을 함으로써 자연특징점의 3차 위치와 관련정보를 랜드마크로서 데이터베이스에 등록한다.

온라인 처리에서는 데이터베이스에 등록된 많은 수의 랜드마크에서 입력 화상 중의 자연특징점에 대응하는 올바른 랜드마크를 검색하기 위해 GPS 또는 전파강도에 의한 위치 정보, 랜드마크의 유사도, 랜드마크 관측시의 카메라 위치의 적합성을 순서대로 사용하여 카메라 위치·자세 추정에 이용하는 랜드마크를 단계적으로 추출, 최종적으로 다른 대응을 배제한 상태에서 자유롭게 카메라 위치·자세 추정을 한다.


랜드마크 데이터베이스의 구축

<그림 1>에 나타낸 것처럼 이번 연구에서는 먼저 촬영대상이 되는 환경을 전방위 카메라를 이용하여 촬영하고, SFM에 의해 자연특징점의 3차원 위치와 전방위 카메라의 카메라 매개변수를 산출한다(A-1). 그 다음 3차원 복원 결과에 의거하여 랜드마크 데이터베이스를 구축한다(A-2).


전방위 카메라에 의한 환경의 3차원 복원

이번 연구에서는 대상이 되는 환경은 다안형 전방위 카메라를 사용하여 이동 촬영하고 Harris 오퍼레이터를 이용한 동영상 중에서 물체의 각 등의 자연 특징점을 추출한다. 그 다음 추출된 자연 특징점을 화상사이에서 대응하고, 동영상 전체에 대한 재투영 오차의 합계를 최소화하는 것으로 자연 특징점의 3차원 위치와 전방위 카메라 위치·자세를 추정한다. 여기서 실제 환경과 자연특징점의 3차원 위치 사이의 기하학적인 위치 관계는 기준 마커와 자연특징점을 동시에 화상 중에서 추적하는 방법 또는 GPS에 의한 위치 계측 정보와 화상에서의 3차원 복원 정보를 병용하는 방법을 이용한다.


랜드마크 정보의 획득

랜드마크 데이터베이스의 구성요소를 <그림 2>에 나타냈다. 랜드마크 데이터베이스(I)는 자연특징점의 3차원 위치(II)와 촬영 지점마다의 정보로 이루어진다. 랜드마크가 보이는 방법은 촬영지점에 따라 다르기 때문에 이번 연구에서는 각 랜드마크에 복수의 촬영지점 정보를 등록한다. 촬영지점 정보는 랜드마크 관측시의 카메라 위치(II-a), 자연특징점의 고유 스케일(II-b), SIFT 특징 벡터(II-c)에서 완성한다. 이번 연구에서는 전방위 카메라에 의한 환경의 3차 복원 결과를 자연특징점의 3차 위치(I) 및 랜드마크 관측시의 카메라 위치(II-a)로 그대로 이용한다. 그리고 자연특징점의 고유 스케일(II-b), SIFT특징 벡터(II-c)의 산출로는 각각 Harris-Laplacian 및 SIFT-descriptor 방법을 이용한다.


정지화상에서의 카메라 위치·자세 추정

전방위 카메라를 이용하여 구축한 자연특징점 랜드마크 데이터베이스를 이용하여 한 장의 정지화상에서 촬영시의 카메라 위치·자세를 추정한다. 여기에서는 먼저 GPS나 휴대전화의 전파강도를 이용하여 그 카메라 위치를 특정하는 것으로 데이터베이스 선택을 한다(B-1). 그 다음 SIFT를 이용한 유사도 평가에 의한 입력화상 상의 자연특징점과 대응한 랜드마크의 후보를 복수 선택한다(B-2). 또한 선택된 각 랜드마크가 각각 대응한 입력화상 상의 자연특징점과 동일하게 보이는 방법으로 관측 가능한 카메라 위치·자세를 산출하고 투표에 의해 1지점에서 가장 많은 랜드마크 후보를 관측 가능한 카메라의 위치·자세 후보에서 결정한다(B-3). 마지막으로 결정된 카메라의 위치·자세 후보에 투표한 랜드마크 군을 이용하여 최종적으로 카메라의 위치·자세 추정을 한다(B-4).

GPS·전파강도에 의한 데이터베이스의 선택

이번 연구에서는 사전에 다수의 지점·지역에서 랜드마크 데이터베이스가 구축되어 있다고 가정하고 GPS 또는 전파강도를 이용할 데이터베이스를 선택한다. 여기에서는 랜드마크 관측시의 카메라 위치를 기준으로 이미 랜드마크 데이터베이스가 100m×100m 정도의 단위로 분할되어 있는 것으로 가정하여, 우선 GPS·전파강도에 의해 얻을 수 있는 관측 위치 주변에 존재하는 데이터베이스를 모두 선택한다.

유사도 평가에 의거한 랜드마크의 선택

입력화상에서 검출된 자연특징점과 보이는 방법이 다양한 랜드마크를 데이터베이스에서 선택한다. 여기에서는 먼저, 입력화상 상의 자연특징점을 추출하고 추출된 각 자연특징점에 대한 SIFT 특징 벡터를 데이터베이스 구축할 때와 동일한 방법으로 산출한다. 다음으로 입력화상의 자연특징점과 랜드마크의 유사도를 산출한다. 마지막으로 각 자연특징점에 대해 산출된 유사도를 순서대로 바꾸어 유사도가 높은 일정 개수의 랜드마크를 자연특징점과 대응시킨다. 이에 따라 화상 상의 각 자연특장점과의 유사도가 높은 복수의 랜드마크를 데이터베이스 중에서 선택한다.

관측위치의 정합성에 따른 랜드마크의 선택

유사도에 의거하여 대응된 자연특징점과 랜드마크의 조합에는 자연특징점과 비슷한 대응을 하는 랜드마크 이외의 오대응이 다수 존재한다. 제안방법으로는 이와 같은 오대응을 배제하기 위해 입력화상이 환경 중의 단일 위치·자세로 촬영되었다는 사실에 주목하고, 앞서 처리과정에서 선택된 랜드마크를 가장 많이 관측 가능한 카메라 위치·자세를 투표로 산출한다. 또 이것에 의해 투표치가 적었던 카메라 위치·자세 이외에 투표한 랜드마크를 배제한다.

카메라 위치·자세 매개변수의 추정

투표에 의해 산출된 랜드마크와 각 랜드마크에 대응하는 입력화상의 자연특징점을 이용한 6자유도 카메라의 위치·자세를 추정한다. 여기에서는 각 랜드 마크를 화상 상에 투영한 좌표와 각 랜드마크에 대응하는 자연특징점의 화상 좌표 간의 제곱 거리(재투영 오차)의 완화를 최소화함으로써 6자유도 카메라의 위치·자세를 추정한다. 단, 여기에서는 투표결과에서 랜덤으로 자연특징점·랜드마크 조를 반복하여 추출하고 ‘LMedS 기준’을 최소화하는 자연특징점·랜드마크조를 선택하는 것으로 투표 결과에서 오대응을 포함하지 않는 자연특징점 랜드마크조를 추출하여 카메라 위치·자세를 추정한다.


실제 데이터를 이용한 실험

제안방법의 유효성을 나타내기 위해 실외환경에 랜드마크 데이터베이스를 구축하고 제안 방법에 의한 카메라 위치·자세 추정의 정밀도와 추정 성공률을 검증했다.

데이터베이스 구축

이번 실험에서는 먼저 <그림 3> 왼쪽에 있는 전방위형 멀티 카메라 시스템(Point Grey Research社 Ladybug)을 이용하여 실험 대상인 환경 내의 2개의 경로 상을 이동하면서 촬영하여 랜드마크 데이터베이스를 구축했다. Ladybug는 수평 방향으로 5개, 위 방향으로 1개인 합계 6개의 카메라 유닛으로 구성되어 있고 각 카메라 유닛은 각각 ‘768×1024’ 해상도에서 동일한 시기에 동영상 촬영이 가능하다. 여기에서는 <그림 3> 오른쪽에 있는 6장의 화상을 포함하는 합계 7,200장(1,200프레임)의 촬영화상을 입력하여 사용하고, 동화상 상의 자연특징점의 움직임에서 자연특징점의 3차원 위치와 전방위 카메라의 카메라 매개변수를 복원했다. 그 다음 얻어진 3차원 복원결과를 이용하여 랜드마크 데이터베이스를 구축한다. <그림 4>는 데이터베이스에 등록된 랜드마크의 3차원 위치와 전방위 카메라의 위치 관계를 지표에 대한 상면도로서 나타낸다. <그림 4>의 두꺼운 실선은 전방위 카메라의 카메라 패스를, 점군(Point Group)은 랜드마크의 위치를 표시했다. 이 실험에서는 데이터베이스에 약 12,500개의 랜드마크가 등록되어 있고, 각 랜드마크에 대하여 평균 7.5 촬영지점마다의 정보가 등록되었다.

카메라 위치·자세의 추정

시판하는 GPS, 카메라가 내장된 휴대전화(Casio社 GzOne W42CA)를 통해 촬영한 정지화상을 사용하여 제안방법에 따른 카메라 위치, 자세의 추정 결과를 참값과 비교하는 것으로 추정정밀도를 평가한다. 카메라 위치, 자세의 실제값은 미리 환경 내의 자연특징점을 토털 스테이션으로 계측하여 입력화상에서 위치를 수동으로 지정한 다음 재투영 오차의 최소화에 의한 카메라 위치·자세를 산출하는 것으로 작성했다. 이 실험에서는 서버·클라이언트형 시스템은 구축하지 않고 휴대전화에 의한 화상 촬영 후에 PC에 화상을 전송한 다음 카메라 위치·자세 추정처리를 했다. 또한 사용한 데이터베이스의 규모가 비교적 작기 때문에 이번에는 등록된 모든 랜드마크를 사용하여 실험했다. 우선 <그림 5>에 나타내는 바와 같이 데이터베이스 구축 시 전방위 카메라의 촬영경로 주변에서 5m 간격의 격자점상(6×6=36 지점)에서 다른 2방향(방향1, 방향2)에 대하여 640×480 크기 72장의 정지화상을 촬영했다. 이번 실험에서는 72장의 화상 중, 카메라 위치, 자세의 참값을 작성 가능한 65장의 화상을 입력화상으로서 사용했다.

<그림 5>에 재투영 오차가 5장을 초과하면 실패로 간주, 촬영지점마다의 추정 성공 및 실패결과를 나타냈다. 화상 중에 인공물을 주로 고정할 수 있는 방향 1에 관해서는 참값을 이용 가능한 촬영지점에 대하여 72.4%의 지점에서 추정에 성공하였다. 방향 1에 대하여 성공으로 판정된 모든 화상에 대한 추정오차의 평균은 위치 오차가 1.4m, 자세 오차가 1.4도이며 이것은 정지화상에 의한 확장 현실감 휴먼 내비게이션(Human Navigation)을 구성하는 데 문제없는 정밀도라고 생각된다. 이것에 대하여 방향 2에서는 촬영된 반수 이상의 화상에서 화상 중에 자연물이 크게 찍혀 있으며 추정 성공률은 41.7%가 되었다. 방향 2에 대하여 추정이 성공으로 판정된 모든 화상에 대한 추정 오차의 평균은 위치 오차가 6.8m, 자세 오차가 3.9도이며 방향 1에 비교하여 추정정밀도가 낮다. 이 원인으로서 방향 1의 경우와 비교하여 카메라 위치에서 건물 위의 랜드마크까지의 거리가 방향 2에서는 3배에서 5배 정도 떨어져 있는 것, 또한 자연물에 의한 차폐에 의해 카메라 위치·자세 추정에 이용할 수 있는 랜드마크 수가 적은 것을 들 수 있다. <그림 6>에 추정에 성공한 지점에서 확장 현실감에 의한 내비게이션 정보를 제시한 예를 나타낸다. <그림 6> 안에는 목적지나 주변 건물에의 안내정보를 입력화상 위에 중첩 표시하고 있어 사용자에게 직감적인 길안내 서비스를 제공하고 있다.


맺음말

지금까지 서버 클라이언트 방식에 의한 휴대전화 상에서의 확장 현실감에의 응용을 상정하여 사전에 구축한 랜드마크 데이터베이스를 사용하는 정지화상 1장에서의 새로운 카메라 위치·자세 추정방법을 소개했다. 이번 방법에서는 정지화상 1장에서의 카메라 위치·자세 추정이 가능하기 때문에 현재 보급되어 있는 카메라내장 휴대전화를 그대로 이용하는 것이 가능하다는 특징을 가진다. 실험에 의해 인공물을 입력화상 중에 충분히 고정하고 있는 경우에는 데이터베이스 구축 시의 카메라 위치에서 떨어진 지점에서도 정지화상의 내비게이션 정보를 중첩하기 위하여 문제없다고 생각되는 정밀도로 카메라 위치·자세 추정을 하는 것을 확인했다. 앞으로는 환경 내에 유사한 랜드마크가 존재하지 않는 특징적인 랜드마크를 우선적으로 이용하는 것으로 추정 안정성을 높이는 방법을 개발하기로 했다. 또한, 동일지점에서 다른 환경조건으로 촬영된 복수의 화상을 데이터베이스로 구축할 때 추정 안정성을 높이는 방법에 대해서도 검토하기로 했다. 


참고문헌

1) 텐모쿠 류헤이, 카미하라 마사유키, 요코야 나오카즈: “헤이조큐세키 네비게이션” 멀티미디어 콘텐츠를 이용한 모바일형 관광안내 시스템 “ 제1회 디지털 콘텐츠 심포지엄 강연 예고집, No.S3-6.2005

2) M.Kourogi, N.Sakata, T.Okuma and T.Kurata: “Indoor/outoor pedestrian navigation with an embrdded GPS/RFID/Self-contained sensor system,” Proc. Int. Conf. on Artificial Reality and Telexistence, pp.1310-1321, 2005.

3) L.Vacchetti, V.Lespetit and P. Fua : “Stable real-time 3D tracking using online and offline information,” trans. on Pattern Analysis and Machine Intelligence, Vol.26, No. 10,pp1385, 2004

4) 타케토미 타카시, 사토 토모카즈, 요코야 나오카즈 : “우선도 정보를 부가한 자연 특징점 랜드마크 데이터베이스에 기초한 실시간으로의 카메라 위치·자세 추정” 화상의 인식, 이해 심포지엄(MIRU 2008) 강연 논문집, pp860-865,2008

5) T.sato, S.Ikeda and N.Yokoya : “Extrinsic camera parameter recovery from multi-camera system,” Proc. European Conf. on Computer Vision, Vol. 2, pp.326-340, 2004

6) S.Ikeda, T.Sato, K.Yamaguchi and N.Yokoya : “Construction of feature landmarker database using omnidirectional video and GPS positions,” Proc. Int. Conf on 3-D Digital Imaging, pp..249-256,2007   

7) K.Mikolajczyk and C.Schmid : “Scale & affine invariant interest point detector,” Int. Journal of Computer Vision, Vo.60, No.1, pp.63~86, 2004

8) D.G. Lowe : “Distinctive image features from scale-invariant keypoint,” Int. Journal of Computer Vision, Vo.60, No.1, pp.91~100, 2004

9) P.J.Rousseeuw : “least median of squares regression.” J. of American Statistical Association. Vol. 79, 99871~880, 1984


【필자 소개】

사토 토모카즈 / 나라 첨단 과학 기술 대학원 대학 정보 과학 연구과 조교수

하쿠 미치타카 / 2007년 나라 첨단 과학 기술 대학원 대학 정보 과학 연구과 박사 전기 과정 수료, 현재 도요타 자동차 주식회사 근무

나카가와 치카 / 2006년 나라 첨단 과학 기술 대학원 대학 정보 과학 연구과 박사 전기 과정 수료, 현재 후지 제록스 주식회사 근무

요코야 나오카즈 / 나라 첨단 과학 기술 대학원 대학 정보 과학 연구과 교수


Keyword

카메라 매개변수 : 화상 촬영 시의 카메라 상태를 나타내는 매개변수, 내부 매개변수와 외부 매개변수로 이루어지며 내부 매개변수는 초점거리나 비뚤임 계수 등의 카메라 특성을, 외부 매개변수는 촬영 시의 카메라의 위치, 자세를 나타낸다.

자연특징점 : 인위적으로 설치, 설정되는 점을 마커로 부르는 것에 대하여 화상 상의 에지의 교점이나 선단 등과 같은 자연에 존재하는 특징적인 점을 나타낸다.

<자료제공 : 사토 토모카즈·스즈키 아츠타카·나카가와 치카·요코야 쵸와 / 나라 첨단과학기술대학원 대학>   


[월간 시큐리티월드 통권 제149호 (info@boannews.com)]

<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>