보안 제품정보


비정형 데이터를 대량으로 분석하는 데 필요한 그래프 데이터베이스 2022.07.14

최근 새로운 유형의 데이터베이스가 떠오르고 있다. 그래프에서 아이디어를 채용한, 그래프 데이터베이스다. 여러 유형의 데이터를 대량으로 보관하고 분석하는 데에 큰 강점을 가지고 있다. 하지만 아직 낯설다는 게 문제다.

[보안뉴스 문정후 기자] 지난 수년 동안 데이터베이스에 대한 접근 관리 규모를 확장하고, 데이터를 훨씬 간편하게 할 수 있는 기술로서 그래프 데이터베이스(graph databases)라는 것이 수면 위로 떠오르기 시작했다. 처음에는 다들 이 낯선 기술에 그리 호의적이지 않았는데, 최근 들어 도입률에 속도가 붙기 시작했다.

[이미지 = utoimage]


마켓앤마켓(MarketsandMarkets)가 발표한 자료에 따르면 그래프 데이터베이스 소프트웨어의 판매량은 2021년 한 해 19억 달러를 기록했으나 2026년까지 51억 달러에 이를 것이라고 한다. 그리고 2030년까지 전 세계 그래프 데이터베이스 소프트웨어 시장은 112억 달러 규모로 성장할 것이라고 마켓앤마켓은 예측하고 있다.

그래프 데이터베이스의 원리는 1960년대에 태어났다. IBM의 IMS와 같은 계층형 데이터베이스의 제한점들이 부각되고, 가상 기록(virtual records)이라는 것이 나타나면서였다. 하지만 어디까지나 희미한 개념의 형태에 머물러 있었을 뿐, 실제 활용이 논의되기 시작한 건 한참 지난 2010년대에 와서였다.

그래프 데이터베이스는 서로 다른 출처와 시스템에서 수집된 대량의 데이터를 처리한다는 면에 있어서는 SQL과 같은 관계형 데이터베이스보다 훨씬 나은 성능을 보여준다. 그리고 실제로 그런 점이 부각되어 실제 용례가 형성되고 있기도 하다.

금융 분야에서 그래프 데이터베이스는 다양한 데이터 포인트들을 서로 연결하기 위한 복잡한 정보 분석에 접목된다. 이런 분석을 통해 기업들은 금융 사기 활동이 언제 어떻게 어디서부터 시작되는지와 같은 통찰을 얻을 수 있게 된다. 이런 데이터 분석 시 그래프 데이터베이스가 활용되면 사용자 기업들은 사기 활동과 신용카드, 주소, 거래 내역 간 연결고리를 찾을 수 있게 된다. 그러므로 실제 금융 사기 사건이 발생하기 전에 막을 가능성이 높아진다.

우주항공 분야의 거인인 록히드마틴(Lookheed Martin)의 경우 그래프 데이터베이스를 사용해 거대한 공급망을 관리한다. 록히드마틴 스페이스의 CDAO인 토빈 토마스(Tobin Thomas)는 “그래프 데이터베이스와 같은 기술을 통해 비행기와 우주선 등에 들어가는 수많은 부품들의 생애주기와 상호 관계를 파악하고 관리할 수 있게 됐다”고 설명한다. “덕분에 어떤 요소가 어떤 다른 요소와 관계를 맺고 있으며, 현재 어떤 상태에 있는지를 꽤 정확하게 파악할 수 있습니다.”

의료 분야는 어떨까? 여기서 그래프 데이터베이스는 다양한 데이터 포인트들을 연결함으로써 환자들이 특정 의료 시스템 내에서 어떤 순서와 흐름으로 서비스를 받고 있는지 관찰할 수 있게 해 준다. 이러한 데이터가 축적되면서 특정 질병에 대한 이해도가 높아지며, 심지어 발병 확률을 낮출 수 있게도 된다. 즉 어떤 기업이나 조직이든 대단히 많은 양의 데이터, 그것도 서로 출처가 다르고 포맷과 내용도 다른 수많은 데이터를 분석해야만 할 때 그래프 데이터베이스를 고려해볼 만하다는 것이다.

그렇다면 그래프 데이터베이스가 무엇인지가 먼저 궁금할 것이다. 이름 그대로 데이터베이스인데, 그래프의 그것과 마찬가지로 점 대 점(point-to-point) 구조를 가지고 있는 데이터베이스를 말한다. 노드와 에지들이 서로 연결된 데이터 저장소에 여러 아이템들을 저장하는데 이 때 에지는 노드들 간의 관계를 나타낸다. 이렇게 노드를 기반으로 한 관계에서는 저장소 내 데이터가 서로서로 직접적으로 연결될 수도 있지만, 사용자가 한 번의 작동을 통해 특정 데이터를 곧장 얻어낼 수도 있게 해 준다.

그래프 데이터베이스는 NoSQL이라는 것을 활용한다. 그래프 데이터베이스의 위력은 수많은 데이터들 간 연결고리와 관계를 찾아낸다는 것인데, 이 때문에 웹과 소셜미디어, 비정형 데이터를 분석하는 데 알맞다. 점 대 점 구조, 즉 횡과 종으로 구성된 구조가 아니기 때문에 그래프 데이터베이스는 관계형 데이터베이스보다 빠르고 유연하다.

그래프 데이터베이스, 어디서부터 시작해야할까?
시장 전망이 매우 좋긴하지만 그건 전망일 뿐, 아직까지 많은 기업들이 그래프 데이터베이스를 도입하지 않고 있다. 2019년 기준 12.7% 정도의 기업들만 그래프 데이터베이스를 사용하고 있다고 조사됐었다. 당시 미래에 그래프 데이터베이스를 사용할 수 있다고 답한 기업은 25%도 되지 않았다. 이 저조한 인기의 이유는 무엇일까? 하나는 그래프 데이터베이스가 아직 많은 이들에게 낯선 개념이라는 것이다.

IT 분야는 전통적으로 관계형 데이터베이스에는 매우 친숙하다. 이해도도 높고 잘 다룰 줄도 안다. 그래프 데이터베이스는 그렇지 않다. 이해도도 낮고, 사용해 본 경험도 별로 없다. 하지만 갈수록 더 많은 데이터를 분석할 필요가 있는 미래를 맞이하고 있는 지금의 상황에서 낯설다는 이유로 데이터 분석에 특화되어 있는 그래프 데이터베이스를 언제까지나 배척할 수는 없다. 그렇다면 이 낯섦을 극복하기 위해 IT 담당자들이 할 수 있는 일은 무엇일까?

1) 조직 내에서 그래프 데이터베이스가 유용하게 활용될 곳을 먼저 찾아야 한다. 예를 들어 사법 기관이나 관련 단체라면 복잡한 사건을 조사해 범인을 추정해야 할 때, 대규모의 비정형화 데이터를 잘 분석함으로써 용의자를 훨씬 빠르고 정확하게 특정할 수 있다. 의료 분야에서 질병의 원인을 추적할 때도 여러 가지 의학 관련 데이터를 분석함으로써 해당 질병에 대한 보다 정확한 이해도를 가져갈 수 있다.

2) 일단 한 가지 프로젝트부터 시작해야 한다. 위 1)번에서 그래프 데이터베이스가 유용해질 수 있는 프로젝트를 찾아냈다면 당분간 그 프로젝트에 집중해야 한다. 이 한 가지 프로젝트를 통해 많은 IT 부서원들이 그래프 데이터베이스에 대해 더 많이 배울 수 있게 하는 것이 중요하다. 한 가지에 집중했을 때 그래프 데이터베이스에 더 빨리 친숙해질 수 있다.

3) 그래프 데이터베이스 전문 벤더나 컨설팅 파트너를 찾아두어야 한다. 그래프 데이터베이스를 기업 내에서 몇몇 직원들 독학시켜 구축하는 것보다 차라리 외부 전문가를 찾는 게 효과적이고 빠르다. 그리고 이미 시장에 그래프 데이터베이스 전문가들이 나와 있는 상황이다.

글 : 메리 셰클릿(Mary Shacklett), 회장, Transworld Data
[국제부 문정후 기자(globoan@boannews.com)]

<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>