보안 제품정보


고려대, 500만개 이상 자료에 대한 실시간 질의응답 가능한 인공지능 모델 개발 2021.08.07

[보안뉴스 박미영 기자] 고려대 컴퓨터학과 강재우 교수팀과 프린스턴대 Danqi Chen 교수가 공동연구를 통해 500만개가 넘는 문서에 대한 자연어 질의에 답을 실시간에 찾을 수 있는 인공지능 모델을 개발했다.

덴스프레이즈(DensePhrases)라 불리는 이 인공지능 모델은 영어 위키피디아 500만개 이상의 문서에 대한 사용자의 자연어 질의를 100㎳(0.1초) 내외로 처리한다. 이 모델은 기존 최고 성능의 모델과 유사한 성능을 유지하면서도 20배가 넘는 속도 향상을 달성했으며, 값비싼 GPU(딥러닝 모델 구동에 활용되는 그래픽프로세서)의 사용없이 모델을 구동할 수 있다는 장점을 지닌다.

덴스프레이즈는 사용자가 일상어로 작성한 질문에 대한 답을 위키피디아에서 찾는다. 예를 들어, ‘2016년 올림픽 남자 에페에서 금메달을 딴 사람(Who did win a gold medal in the men’s epee at the 2016 Olympics)’에 대한 질문이 주어지면 실시간으로 Fencing at the 2016 Summer Olympics라는 위키피디아 문서로부터 ‘Park Sang-young’이라는 구체적인 정답을 찾아 사용자에게 돌려준다.

이번 연구는 프린스턴대에 방문연구 중인 고려대 이진혁 박사 주도하에 성무진 박사과정과 프린스턴대 Danqi Chen 교수가 참여했으며, 8월 첫째 주에 개최된 인공지능 언어처리 분야 최고 권위 학회인 ‘Annual Meeting of the Association for Computational Linguistics(ACL)’에서 8월 4일에 발표됐다. 이 연구는 지난 수년간 이진혁 박사가 주도해 온 ‘구 기반 질의응답(Phrase-Indexed QA)’과 ‘오픈도메인 질의응답(Open-Domain QA)’ 기술을 발전시킨 결과다. 이 사전연구들 또한 2019년과 2020년에 각각 ACL에 발표돼 올해로 3년연속 최고권위 학회인 ACL 에서 그 연구 성과를 인정받게 됐다.

덴스프레이즈의 학습에는 기계독해(Machine Reading Comprehension) 데이터셋과 질의생성(Question Generation) 모델을 활용해 생성된 150만여건의 데이터가 사용됐으며 덴스프레이즈 홈페이지에서 직접 체험이 가능하다. 이 모델은 위키피디아뿐만 아니라 다양한 도메인의 대용량 문서 빅데이터에도 적용 가능하도록 설계돼 학계와 산업계의 다양한 분야에서 자연어 기반 QA 플랫폼으로 활용 가능하다.
[박미영 기자(mypark@boannews.com)]

<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>