보안 제품정보


숨겨진 통찰을 찾아서 : 데이터 분석을 돕기 위한 제언 3 2017.09.05

데이터 분석의 워크플로우 전체 가다듬어 쉬운 답 제공하기
예산이 시간을 결정한다...답하는 와중에 슬쩍슬쩍 교육하기


[보안뉴스 문가용 기자] 많은 기술 및 보안 팀이 데이터 분석력을 키우기 위한 프로젝트에 돌입했다. 이는 금융 산업에서 특히 두드러지게 나타난다. 이들이 원하는 분석 능력이란, 데이터로부터 의미 있는 통찰을 제 시간에 끌어내 보안 담당자들이나 관리자, IT 담당자들이 상황에 따른 올바른 판단을 할 수 있도록 하는 것이다.

[이미지 = iclickart]


이를 ‘데이터 레이크 프로젝트(data lake project)’라고 하는데, 통상 네 가지 단계로 구분된다. 데이터 레이크의 구축, 데이터의 입수, 분석, 통찰 제시가 바로 그것이다. 처음 두 단계에서의 가장 큰 어려움은 호수(lake)가 되어야 할 데이터들이 진흙탕으로 쉽게 변한다는 것이다. 마지막 두 단계에서의 주요한 어려움은 투자한 만큼의 결과가 좀처럼 나오지 않는다는 것이다. 이를 위해 몇 가지 해결책을 제시한다.

1. 분석을 위한 워크플로우를 처음부터 깔끔하게 다듬으라
시도 때도 없이 주어지는 데이터 분석 요구가 얼마나 사람 힘들게 하는지, 보안 담당자라면 충분히 알고 있다. 갑자기 지나가다가 ‘요즘 보안 상태 어떠냐’고 묻는 임원부터, 출처도 불분명한 데이터를 잔뜩 모아다가 던져주는 각종 담당자들은, 자기 할 일을 하는 것일지도 모르나 실제 데이터로 손을 더럽혀야 하는 담당자는 달갑지 않다. 게다가 알아듣게 설명을 해줘야 하는 것 역시 난관이다. 게다가 이런 일이 계속 반복된다. 끝나지 않는 “그래서 괜찮다는 거야?” 질문에 우린 반복적인 답을 줄 수밖에 없다.

이를 해결하려면 임직원들의 데이터 공급 및 질문 공세를 막아야 하는데, 이건 불가능하다. 먼저 각종 센서나 출처로부터 데이터를 수급하는 과정을 자동화하는 게 도움이 된다. 정해진 곳으로부터 일정한 시간에 비슷한 양의 데이터가 수급된다면, 데이터 분석을 보다 빠르게 시작할 수 있고, 데이터에 질질 끌려 다니는 느낌을 받지 않아도 된다. 이 과정을 자동화 툴로 처리하면 구조화된 데이터를 받아볼 수 있다는 커다란 장점도 생긴다.

물론 자동화 툴 하나로 데이터를 받고, 분석하고, 결과를 제공하는 그 전체 과정이 부드러워지지는 않는다. 데이터 수집 경로와 방법, 저장 상황, 데이터 모델링 방법을 전부 되짚어보되, 보통 누가 어떤 ‘통찰’을 얻고 싶어하는지, 어느 수준의 답변을 원하는지, 얼마나 빨리 답을 줘야만 하는지 등의 상황을 전부 고려해서, 이에 맞게 조정해야 한다. 그리고 이런 일들을 반복적으로 수행할 수 있도록 ‘데이터 분석의 구조’ 자체를 설계하는 게 중요하다.

2. 내게 주어진 시간이 얼마나 되는지부터 파악하라
다양한 출처에서 수집된 정보를 연관 지어서 하나의 통찰을 얻어내는 건 말처럼 쉬운 일이 아니다. 그 작업 자체의 난이도도 그렇지만 이 정보의 출처라는 것이 상당히 복잡하게 얽혀있기 때문이다. 그렇기 때문에 출처의 신뢰도를 확인하는 것부터도 쉬운 일이 아니다. 또한 데이터 하나하나를 꽤나 오랜 시간, 공들여 학습해야만 올바른 답을 얻을 수 있다. 이 ‘학습’이라는 것은 세 단계로 구성된다. 1) 데이터 이해, 2) 올바른 분석 방법 적용, 3) 파악된 내용을 쉽게 정리, 가 바로 그것이다.

이 세 가지 중 가장 많은 시간이 소요되는 건 첫 번째의 ‘데이터 이해’다. 날 것 그대로의 데이터를 확실하게 파악한다는 건 경력이 많은 데이터 분석가에게도 어려운 일이다. 심지어 이해를 도울 만한 보조 문서나 안내 자료가 존재하지 않는 경우도 많다. 데이터의 내용뿐만 아니라 구조에 대한 것이라고 해도 그렇다. 그러므로 해당 데이터가 어떠한 상황과 맞물려서 생성되었는지, 어떤 의미를 가지게 되는지, 어떻게 해석하고 적용해야 하는지를 알아내는 데에는 상당한 시간이 걸린다. 보통 이런 질문들을 가지고 데이터에 접근한다.

1) 각 데이터 공급원의 필드값은 어떤 의미를 가지고 있는가?
2) 주어진 데이터와, 데이터를 생성한 기기나 솔루션의 환경에는 어떤 연관성이 있는가?
3) 똑같은 것에 대한 정보가, 각기 다른 출처로부터 제공될 때, 포맷은 어떻게 달라지는가?
4) 데이터에 어떠한 이상 현상이나 특이점이 존재 가능한가? 어떤 변수를 고려해야 하는가?

중요한 건 이렇게 데이터를 이해하는 데에 얼마나 긴 시간을 쓸 것인가를 정하는 게 어렵다는 것이다. 이는 보통 예산 결정권자가 정해준다. 시간을 보낼수록 돈이 든다는 걸 기억해야 한다. 그렇다고 너무 속도에만 맞춰 데이터 이해를 도모해서는 안 된다. 무엇보다 결과물에 대한 신뢰도가 떨어지고, 분석된 내용을 전달받는 자도 의심을 하게 된다.

3. 시작부터 멀리 내다보라
데이터를 기반으로 한 위험 평가나 제안을 한다는 건 다음 질문에 답한다는 것과 같다.
1) 지금 우리 조직의 상태는 어떤가?
2) 좋다는 소리인가, 나쁘다는 소리인가?
3) 왜 그런가?
4) 뭔가 행동을 취해야 하는가? 더 지켜봐야 하는가?
5) 행동을 취한다면, 뭘 어떻게 해야 하는가?

물론 질문은 여기서 끝나지 않고 꼬리에 꼬리를 물고 이어질 가능성이 많다. 그리고 보통은 대답하기 쉽지 않은 질문들일 공산이 크다. 공식적인 자리에서든 사적인 자리에서든, 추가 질문을 할 준비가 언제든 되어 있어야 하는데, 이 역시 만만치 않은 스트레스다. 그러니 데이터를 다루는 자로서 장기 계획을 마련하는 것도 중요하다. 데이터를 다뤄보지 않은 사람들의 입장에서, 그들이 데이터를 어느 정도 다루고 이해할 수 있도록 교육할 방법을 찾아야 한다.

특히 누가 데이터를 많이 요청하는가? 그들은 보통 어떤 답을 원하는가? 왜 그렇게 그런 정보들이 그들에게 중요한가? 데이터를 어디까지 이해할 수 있는가? 이러한 상황에 맞춰 답변을 제공할 때나, 프레젠테이션을 할 때, 혹은 따로 시간을 내서 데이터 대하는 법을 조금씩 알려주는 것도 장기적으론 좋은 방법이다. 조금씩이지만 누군가 데이터로 대화하는 법을 익히기 시작하면, 그만큼 당신의 시간이 아껴질 것이다.

글 : 닉 휫필드(Nik Whitfield), Panaseer
[국제부 문가용 기자(globoan@boannews.com)]

Copyrighted 2015. UBM-Tech. 117153:0515BC
<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>