| [Technical Issue] 음성인식 트렌드 보고서 | 2016.12.16 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
인공지능기반 음성인식, 사람보다 낫다
[시큐리티월드 이규섭] 최근 음성인식기술이 빅데이터 및 인공지능과 결합해 한층 높은 음성 인식률과 지능화가 가능해지면서 새로운 사용자 인터페이스(User Interface)로 주목 받고 있다. 2007년 애플의 아이폰이 기계와 인간의 혁신적인 인터페이스로 ‘터치(Touch)’를 공개한 이래 이제는 기계와 자연어로 편안하게 대화하는 것이 새로운 패러다임으로 자리잡아 가고 있다. 이번 보고서를 통해 음성인식기술이 앞으로 인간의 삶을 더욱 편리하게 만들어 주는 핵심적인 사용자 인터페이스로서 ‘사용자의 게으름을 더 많이 지원하는 쪽이 이긴다’는 UI 경쟁의 룰을 따를지, 국내외 주요사업자들은 인공지능 시대에 어떻게 활용해 기업의 미래를 준비하고 있는지, 해외 사업자 비즈니스 사례 중심으로 시사점을 도출해 보고자 한다.
음성인식과 인공지능의 결합 음성인식문자 기능을 활용해 문자를 주고받는 사용자가 늘고 있다. 타이핑하기 어려운 상황에서 간단한 메시지를 음성인식 문자로 보낼 수 있으며 다른 앱과도 연동해 사용할 수 있어 크게 편리해졌다. 이런 음성인식 기술은 최근 급속히 발전한 빅데이터 및 인공지능과 결합해 한층 높은 음성 인식률과 지능화를 가능케 하고 있다. 2007년 애플의 아이폰이 기계와 인간의 혁신적인 인터페이스로 ‘터치’를 공개한 이래 이제는 기계와 자연어로 편안하게 대화하는 것이 새로운 패러다임으로 자리잡아 가고 있다. 인공지능 분야의 중요한 기술적 변화는 ‘대화형 인터페이스(Conversational Interface)’로 요즘 홈비서로 가장 인기를 끌고 있는 대화형 인공지능 비서 아마존 ‘에코’ 등 각 기업에서는 음성인식 기술을 활용해 각자의 사업영역에서 활발히 움직이고 있다.
지난 8월 페이스북 마크 저커버그 CEO는 영화 ‘아이언맨(Iron Man)’에 나오는 인공지능 비서 로봇 ‘자비스(Jarvis)’와 같은 인공지능 개인비서를 제작 중이며 오는 9월에 공개할 예정이라고 밝혔다. 저커버그는 “인공지능이 내 목소리를 인식하도록 해서 집안의 모든 것을 통제할 수 있도록 할 것”이라며 “조명, 온도 조절과 얼굴 및 동작인식 등의 최신 기술을 접목해 집 정문이 저절로 열리게 된다”고 덧붙였다. 이를 보면 ‘자비스’가 현실로 들어올 날도 멀지 않은 것 같다. 바이두 리서치를 이끌고 있는 스탠퍼드대 앤드류 응(Andrew Ng) 교수도 음성인식 기술이 앞으로 웨어러블 디바이스는 물론 자동차와 전자기기 등 사물인터넷(IoT) 시장 자체를 바꾸어 놓을 것이라고 전망했다. 각종 기기 제어는 물론이고 음성 명령을 이용한 즉각적인 정보 검색이 언제 어디서나 가능해진다는 것이다. 인공지능과 결합하면 개인별 사용자 경험에 최적화된 맞춤형 서비스도 가능할 것이라는 설명이다. 음성인식 기술 및 활용분야 음성인식 기술 음성인식 기술은 컴퓨터가 마이크와 같은 소리 센서를 통해 얻은 음향학적 신호(Acoustic speech signal)를 단어나 문장으로 변환시키는 기술을 말하는데 사람의 의도를 알려 주는 방법으로 사용된다. 일반적으로, 음향 신호를 추출한 후 잡음을 제거하는 작업을 하게 되며, 이후 음성 신호의 특징을 추출해 음성모델 데이터베이스(DB)와 비교하는 방식으로 음성을 인식하게 된다. 사람의 말을 인식해 텍스트로 변환하거나 특정 명령을 수행하는 솔루션으로 마우스, 키보드, 터치 등 물리적 인터페이스 대신 사람의 음성만으로 기기 및 정보 서비스 이용이 가능한 것이 특징이다. 통상 음성인식 솔루션을 통한 입력 속도는 물리적 인터페이스보다 2~3배 빠른 것으로 알려져 있다. 음성인식 과정은 입력받은 음성을 분석, 특징을 추출한 다음 미리 수집된 음성모델 DB와의 유사도를 측정해 가장 유사한 것을 텍스트로 혹은 명령어로 변환하는 방식으로 작동한다. 이는 일종의 패턴 인식 과정과 흡사한데 사람마다 목소리와 발음, 억양 등이 달라 최대한 많은 사용자들로부터 음성모델 DB를 수집해 이로부터 공통된 특성을 추출해 기준 패턴을 생성한다.
음성인식 기술의 역사 음성인식 기술은 1952년 미국 벨연구소의 숫자 인식 시스템 ‘오드레이(Audry)’ 개발을 시작으로 지난 반세기 동안 많은 발전을 이뤘다. 친숙하고 편리해 이동 및 작업 중에도 상시 입력이 가능하고 화자의 고유 정보를 전달할 수 있으며 입력 속도가 빠르다는 장점이 있다. 미국 리서치 회사 IDC는 음성인식 시장이 인공지능과의 결합으로 활용 분야가 증가하면서 2017년 1,130억 달러까지 커질 것으로 전망했다. 주요 음성인식 엔진 비교
주요 활용분야 음성인식 엔진을 스마트폰이나 PC에 임베디드 시켜 대화형 개인비서나 서드 파티(3rd party) 앱들과 연동해 정보검색, 커머스로 확대 가능한 형태가 있는 반면, 스피커 형태의 별도 하드웨어에 탑재한 스피커형 개인비서 모델로 아마존의 ‘에코’가 대표적이며 최근 국내 텔코(Telco) 및 스타트업에서도 개발, 출시를 서두르고 있다. 자동통역 및 번역 분야에서도 개발이 활발하다. 1960년대 1세대 텍스트 자동번역, 2세대 제한 영역 단문 자동통역, 3세대 실시간 동시통역으로 발전되고 있다.
한편, 운전 중 인포테인먼트 기기 조작에 따른 교통사고가 심각하고, 전방 주시 태만자 사고 사망자 증가로 운전 중 휴대폰 사용 금지 등 안전규제와 영상장치 시청 및 조작 금지에 대한 법령 마련 등이 있다. 이를 해결하는 방안으로 음성인식 기술이 대두되고 있다. 이에 2019년에는 자동차의 절반 이상에 음성인식 탑재가 예상되며(2012년 37%), 자동차 음성인식 시장 규모는 2011년 81억 달러 대비 2019년 179억 달러 2배 이상으로 예상된다.
마지막으로 콜센터 분야에서는 단순처리 및 정량 데이터 분석에 머물렀던 VOC를 STT(Speech to Text)와 TA(Text Analytics) 기술을 통해 고객의 소리를 분석, 고객 니즈를 파악하고 대응함으로 성과를 향상시키고 있다. 향후에는 인공지능 상담원이 보조 역할을 하며 무인 상담 콜센터로 발전할 전망이다. [글 이규섭 KT경제경영연구소 책임연구원(gyuseob.lee@kt.com)] [월간 시큐리티월드 2016년 12월호 통권 239호(sw@infothe.com)] <저작권자 : 시큐리티월드(http://www.securityworldmag.co.kr) 무단전재-재배포금지> |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|