보안 제품정보


인공지능 접목한 보안의 시대 직전에 해야 할 일 2017.06.14

충분한 학습 거치면 사람보다 뛰어난 탐지능력 보여
학습용 데이터 구하기 쉽지 않고, 가격도 아직은 높은 편
오픈소스로 풀리기 시작하는 일부 알고리즘, 미리 알아두어야


[보안뉴스 문가용 기자] 2017년 가장 뜨거운 말 중 하나는 딥 러닝 혹은 머신 러닝이다. 여기엔 이유가 있다. 사람이 모자란다는 것이다. 사람의 뇌를 흉내 낼 수 있는 뭔가가 간절히 필요한 시점이 되었을 때 마침 인공지능 분야의 발전이 꽤나 눈부신 시점에 이르렀다. 하드웨어의 발전도 때마침 적당하게 이뤄져 우리는 꽤나 그럴듯하게 뇌의 일부 기능을 따라잡을 수 있게 되었다.

[이미지 = iclickart]


그래서 이젠 손 안에 들어가는 작은 핸드폰이 자연어를 처리할 수 있고 멀웨어를 탐지할 수 있다. 수상한 행동 패턴을 탐지해내는 등 특정한 경우에서는 문제를 해결할 수도 있다. 그렇기에 가까운 미래에 정보보안 전문가들과 손잡고 사기를 방지하고 각종 애플리케이션들을 보호할 수 있게 되기를 바라게 되는 것이다.

머신 러닝과 딥 러닝의 장점은 손으로 직접 하는 프로그래밍에 대한 소요가 그리 크지 않다는 것이다. 머신 러닝 알고리즘을 도입한다고 했을 때 가장 큰 비용이 요구되는 건 피쳐 엔지니어링(feature engineering)이라고 불리는 단계에서다. 엔지니어와 분석가, 혹은 데이터 과학자가 데이터로부터 흥미로운 부분(피쳐)들을 추출하기 위해 코드를 작성하고, 머신 러닝 알고리즘은 이 코드를 바탕으로 학습이라는 걸 하게 된다.

머신 러닝이 배워야 할 흥미로운 부분이라고 하면 ‘개인의 하루 평균 거래량’, ‘신용카드 사용처와 주인의 물리적인 거리’ 등이다. 머신 러닝은 이런 피쳐 엔지니어링을 통해 주입된 것을 바탕으로 기능을 발휘해가는 것인데, 이 때 어떤 ‘피쳐’들을 가르칠 것인지 정하는 것은 분석가들이다. 머신 러닝과 딥 러닝이 활용될 것으로 예상되는 분야는 대표적으로 다음과 같은 것들이 있다.

- 비정상적인 행동 탐지 : 사용자들은 SNS나 커뮤니티, 포럼 등을 통해 해당 플랫폼의 콘텐츠 생산/변경/삭제 활동을 한다. 이것이 누적되면 ‘정상 행위’가 무엇인지 정의될 수 있고, 반대로 전에 없었던 돌발행위가 쉽게 파악된다. 예를 들어 일상적인 글만 써오던 사용자가 갑자기 포르노그래피 콘텐츠를 여기 저기 업로드하기 시작한다던가 하면 즉각 적발된다. 기업의 민감한 데이터의 사용 현황도 이런 식으로 관리될 수 있다.

- 사진 확인 : 사이버 범죄자들은 가짜 사진과 ID를 만들어내서 자신들의 모습을 감춘다. 새롭게 계정을 만들고, 엉뚱한 사람을 사칭한다. 깜빡 속은 사람들이 이 가짜 인물들에게 말도 걸고 정보도 주고 심지어 돈과 유로 서비스도 제공한다. 이런 류의 공격을 가장 많이 받는 온라인 서비스 중 하나가 바로 여행/숙박 앱인 에어비엔비(Airbnb)다. 신경망을 바탕으로 한 인공지능은 가짜 사진 혹은 사기성 사진을 쉽게 찾아내는 학습과정을 거칠 수 있다. 이미 2015년부터 수상한 이미지를 가려내는 부분에 있어 인간을 능가하고 있다.

- 피싱 이메일 : 정상 사용자가 보낸 것처럼 위장된 피싱 이메일은 오랜 시간 사용자들을 괴롭혀온 공격방식이다. 여기에 속은 사용자들은 아무런 의심 없이 링크를 클릭하거나 첨부파일을 열어 멀웨어를 설치하고 민감한 정보에 접속하거나 로그인 정보를 입력한다. 머신 러닝 알고리즘을 훈련시키면 이메일을 사람보다 훨씬 더 잘 골라내는 게 가능하다.

- 스팸 탐지 : 사이버 공격의 대부분은 이메일을 통해 들어온다고 해도 과언이 아니다. 그 말은 스팸 메일만 잘 걸러도 대부분의 위험에서 벗어날 수 있다는 뜻이다. 정크메일과 정상 메일의 차이를 머신 러닝에게 알려주면 알고리즘은 사람보다 훨씬 더 스팸 메일을 정확하게 가려내게 된다.

- 사용자 및 단체의 행위 분석(UEBA) : 최근 떠오르고 있는 UEBA는 특정 단체나 기업의 네트워크, 서버, 계정, 엔드포인트 등에 연결된 모든 사용자들의 행위를 분석하는 걸 말한다. 외부로부터의 침해를 탐지하거나 악성 내부자(혹은 내부자 사칭) 공격을 탐지 및 방어하는 데에 도움이 된다. 이런 UEBA에 인공지능을 접목하면 우선 피쳐 엔지니어링 소요가 크게 줄어들고 악성 세션 적발 확률도 올라간다.

몇 가지만 훑어보았을 뿐인데도 앞으로의 정보보안이 획기적으로 변화할 것이라는 기대감이 막 생겨난다. 하지만 머신 러닝에도 몇 가지 문제가 존재한다. 이를 짚고 넘어가지 않으면 그 기대감은 설레발에 지나지 않게 된다.

- 효과를 발휘하기 전에 어마어마한 양의 데이터를 피드해주어야 한다. 양도 중요한데, 피드되는 데이터 하나하나의 질도 좋아야 한다. 데이터 전문가가 옆에 앉아서 하나하나 고르고 다듬고 맛깔나게 만들어서 오랜 시간 동안 이 잠재력 좋은 기계 ‘뇌’에 계속해서 공급해야 한다는 것이다.

- 하드웨어의 발전이 커졌다고는 하나 아직도 제대로 된 인공지능 솔루션을 돌리고 머신 러닝을 학습시키려면 장비에 꽤 큰 돈을 들여야 한다. 아직까지는 ‘비싼 고급’임이 분명하다. 하드웨어가 괜찮아지고 인공지능이 상용화되었다는 건 세계적인 대기업들이 그나마 고려해볼 수준이 되었다는 뜻이다.

첫 번째 문제는 일반 기업이 제대로 해결하기 힘들다. 그래서 최근엔 ‘미리 훈련된’ 머신 러닝 알고리즘이 시장에 오픈소스로 나오기도 한다. 혹은 ‘장거리 교육’ 시스템을 도입하기도 한다. 두 번째 문제는 아직 ‘각 회사 사정’에 입각한 문제라 상용화가 될 때까지 시간을 주는 수밖에 없다. 머신 러닝을 아직 사용해볼 수 없다고 하더라도 오픈소스화된 것들을 미리 맛보며 대비하는 것이 지금 이 순간의 가장 현명한 대처라고 할 수 있다.

글 : 피트 헌트(Pete Hunt)
[국제부 문가용 기자(globoan@boannews.com)]

Copyrighted 2015. UBM-Tech. 117153:0515BC
<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>