| 데이터 품질을 투자 수익율로 표현할 수 있을까 | 2023.06.26 |
데이터 품질의 중요성을 모르는 사람은 아무도 없다. 다만 그것을 구체적으로 체감하지 못하는 것이다. 이해를 돕기 위한 방법 중 하나로 데이터 품질을 투자 수익율이라는 유형의 가치로 환산하는 것이 있다.
[보안뉴스 문정후 기자] 데이터에 대한 의존도가 높은 프로젝트들을 이미 진행했거나 앞으로 수없이 진행할 것이 분명한 IT 담당자들이라면 먼저 ‘데이터 품질’에 대한 고민을 해야 할 것이다. 어디서 어떤 방법으로 수집하는 데이터든, 그 데이터를 활용하기 전까지는 반드시 일정 수준의 품질로 맞춰두어야만 일이 진행되기 때문이다. ![]() [이미지 = gettyimagesbank] 데이터 품질은 생각보다 어려운 주제이며, ‘양질의 데이터를 확보한다’는 건 상당히 도달하기 어려운 목표다. 데이터 ‘품질’을 제대로 측정할 장치도 없는 가운데 논의되는 것이라 구체적인 형태도 없고, 따라서 데이터 품질 향상 프로젝트에 참여하는 모든 사람들이 같은 생각을 가지고 일을 진행하게 만드는 것도 대단히 어렵다. 그런데도 이 부분에서 일이 틀어지면 프로젝트 전체가 엇나간다. 데이터 품질은 절대적인 개념이 아니라 상대적인 것이라 기업의 전체 전략, 사업 진행 방식, 문화, 기업 내 보유한 정보와 기술 등에 따라 천차만별로 달라질 수 있다. 반대로 말해 데이터 품질 향상이라는 것은 기업 전체의 향방이 좌지우지 될 만한 규모의 프로젝트라는 것이고, 그래야만 성공을 보장할 수 있다는 뜻이 된다. 이처럼 모호한 개념인지라 많은 이들이 섣불리 시작하지 못하는 것이 바로 이 ‘데이터 향상 프로젝트’이기도 하다. 데이터 품질을 향상시켰을 때 조직이 얻어갈 수 있는 건 상당히 많다. 하지만 그 이득을 구체적으로 설명하기는 힘들다. 예를 들어 보다 빠른 문제의 해결, 단일 진실 공급원의 확보, 고객 경험 향상, 근무자 사기 진작, 시장 내 기업 이미지 상승 등이 데이터 품질로부터 얻을 수 있는 장점들인데 이를 누구나 이해할 수 있는 숫자나 각종 양적 단위들로 표현하기란 어지간히 힘든 게 아니다. 하지만 그렇다고 손을 놓을 수는 없고, 언젠가 한 번은 이를 숫자로 환산해야만 하는 때가 온다. 그것도 ‘액수’로의 표현이 요구되는 경험을 하게 될 것이다. 유형의 ‘투자 수익율’과 무형의 ‘데이터 품질’ 데이터 품질을 투자 수익율이라는 구체적인 액수로 환산하려면 그 무엇보다 ‘데이터 품질 규정’이 필요하다. 그 규정을 기준으로 위반이 얼마나 일어났으며, 그로 인한 손해액이 얼마인지, 반대로 위반이 없을 때 수익이 어느 정도 늘어났는지를 알 수 있기 때문이다. 그리고 그러한 규정이 있으려면 ‘좋은 품질의 데이터’에 대한 정의가 수리되어야 한다. 좋은 품질의 데이터란 간단히 말해 ‘용인 불가능한 수준의 결함이 없는 상태의 데이터’라고 정의할 수 있다. 그렇다면 ‘용인 불가능한 수준의 결함’이 무엇인지를 정해야 한다. 이는 항목화를 통해 해결할 수 있다. 내용이 완전히 틀린 것, 존재하지 않는 것, 참고 자료가 올바르지 않은 것 등 기업이 상황과 필요에 따라 꼼꼼하게 정해야 한다. ‘우리 회사에서 사용할 만한 품질의 데이터는 적어도 이 정도는 되어야 한다’는 기준과 철학을 마음껏 규정의 형태로 담아내면 된다. 그리고 이 규정을 사내 모든 데이터에 적용시키는 것이 좋다. 여기까지 했다면 이제 우리 손에는 데이터 품질에 관한 규정과 목록이 들려 있을 것이다. 그 다음으로 해야 할 것은 데이터 프로파일링(데이터의 품질을 여러 항목에 비추어 평가하는 일)과 우선순위 평가다. 일반적으로 기업 내 데이터가 얼마나 깨끗하고 지저분한지 명확하게 알기란 힘들다. 그러므로 데이터 프로파일링을 통해 데이터가 얼마나 깔끔하게 보존되어 있는지를 파악하고, 필요하다면 깔끔한 상태로 전환해야 한다. 그러면서 중요한 데이터와 덜 중요한 데이터의 순위를 매겨두는 것이 좋다. 이렇게 직접 데이터를 만지는 과정 없이는 데이터 품질이 또 다시 ‘모호한’ 개념이 된다. 이 과정을 진행하다보면 필연적으로 데이터의 ‘재고 정리’가 실시된다. 필요 없는 데이터를 버리게 되고, 더 중요한 데이터를 솎아내게 된다. 그러면서 데이터 하나하나의 품질도 향상되지만 ‘데이터 보유 현황’ 자체의 품질이 크게 높아진다. 어쩌면 데이터 하나하나를 향상시키는 것보다 기업의 ‘데이터 창고’를 이렇게 청소하는 것이 더 중요할 수도 있다. 이런 수정의 과정을 통해 그 동안 유지됐던 데이터 관리 문화의 약점과 강점도 파악할 수 있게 되고, 이 지식을 향후 데이터 관리에 적용할 수 있다. 투자 수익율 계산 투자 수익율 계산은 한 마디로 프로젝트의 기획, 구성, 유지, 운영을 모두 아울러 원하는 결과가 나올 때까지 들어가는 투자금과, 나오는 결과로부터 얻는 수익을 전부 누적시키는 것이다. 투자금은 빼기가 될 것이고, 수익은 더하기가 될 것이다. 데이터 품질은 이런 투자 수익율의 계산식에 포함되는 요소로, 품질을 높이기 위한 노력은 ‘투자’ 쪽에, 품질 향상으로 인한 결과는 ‘수익’ 쪽에 편입된다. 품질이 높아지면 대체적으로 수익도 높아진다. 그러므로 문제는 데이터 품질을 높이는 데 들어가는 비용이 얼마나 되느냐는 건데, 이 때 원하는 데이터 품질의 수준에 이르기까지 들어간 모든 비용을 계산에 넣어야 한다. 수준 이하 품질의 데이터를 수정하거나 폐기하는 모든 비용을 포함한다. 수익의 경우 프로젝트의 초기라 진행된 게 없고, 따라서 수익이라고 할 만한 성과가 없다면 예상 수익이라도 최대한 가늠해서 작성하는 게 좋다. 이 때 지나치게 부풀린다면(근거가 불확실하다면) 설득력을 크게 잃는다. 왜 그런 예상을 했는지도 구체적으로 설명할 수 있어야 한다. 데이터의 품질을 구체적으로 표현하고, 그것의 향상으로 인한 이득을 계량한다는 게 어려운 일이라는 것에는 이견이 없을 것이다. 또한 요즘처럼 데이터에 대한 의존도가 높아지는 때에 데이터 품질 향상이 사업의 성패를 좌지우지 한다는 것에도 반대 의견은 거의 없을 것이다. 그럼에도 사업은 숫자 놀음이라는 걸 기억해야 한다. 구체적인 근거 없이 모호한 기대와 추상적인 예상만으로 사업을 시작하는 사람도 거의 없거니와, 그런 사업이 성공하는 사례는 극히 드물다. 아는 것과 표현할 줄 아는 것은 완전히 다른 얘기다. 데이터가 중요하다는 것, 품질 좋은 데이터가 꼭 필요하다는 것을 모르는 사람은 없다. 그럼에도 그 뻔한 내용을 구체적인 자료를 가지고 설득할 줄 알아야 하는 게 데이터 담당자(관리자, 엔지니어, 과학자 등등)들의 숙명이다. 데이터 품질이 중요하다는 상식을 한 번 더 구체화시켜보자. 거기서부터 데이터 품질 향상 프로젝트는 속도를 얻는다. 글 : 윌리엄 맥나이트(William McKnight), IT 칼럼니스트 [국제부 문정후 기자(globoan@boannews.com)] <저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지> |
|
|
|