| 인공지능으로 현재 보유한 데이터를 최대한 활용하려면? | 2023.06.20 |
데이터의 품질이 인공지능의 성능을 좌지우지 한다. 그러므로 획기적인 데이터 분석력을 갖추기 위해 먼저 해야 할 일이 있다. 데이터 품질을 관리하는 건데, 여기에 한 가지가 더 추가된다.
[보안뉴스 문정후 기자] 2022년 2월 MIT 대학은 보고서를 하나 발표했다. 수많은 기업들이 인공지능 기술을 활용해 무시할 수 없는 수익을 내고 있다는 내용이었다. IT 업계 종사자들로서는 기쁜 소식이 아닐 수 없다. 2019년만 해도 MIT 대학에서는 인공지능에 투자한 기업들 중 70%가 아무런 결과를 내지 못한다고 발표했었다. ![]() [이미지 = gettyimagesbank] 그렇다면 3년 사이에 무슨 일이 있었던 걸까? MIT는 “2019년만 해도 인공지능을 실제 생산 환경에 접목하는 사례가 거의 없었다”고 말한다. “그런데 2022년에는 26%의 기업들이 인공지능을 실제 생산 및 서비스 제공 환경에 접목하고 있었습니다. 실제 활용 사례가 크게 증가했다는 것이죠. 물론 아직 26%밖에 되지 않는다는 뜻이 되기도 합니다만, 단 몇 년 사이에 늘어난 것치고는 적다고 볼 수 없습니다.” 보고서의 내용이다. 이런 현상을 통해 CIO나 데이터 과학자들이 얻어갈 수 있는 교훈은 분명하다. 인공지능이 본격적으로 보편화되기 전에 해야 할 일이 많다는 것이다. 아직 인공지능의 활용법을 우리는 다 숙지하지 못하고 있는데, 기업의 수장들은 인공지능으로 수익 증대를 금방 맛보고 싶어하기 때문이다. 그러니 데이터 관련 전문가들의 할 일이 많아질 수밖에 없다. 현재 기업들의 데이터 활용 혹은 처리 방식이 가지고 있는 가장 큰 문제는 ‘버리는 데이터가 너무 많다’이다. 데이터 효율성이 떨어진다는 것인데, 이는 가지고 있는 데이터에 비해 활용 방법이 너무나 제한적이라 생기는 문제다. 데이터 활용의 속도가 데이터 축적의 속도를 절대로 쫓아가지 못한다. 인공지능이 이를 해결해 줄 것이라고 많은 데이터 전문가들이 보고 있는데, 이게 단순히 인공지능 솔루션을 하나 구매한다고 해서 이뤄지는 일은 아니다. 그 전에 해야 할 일이 있다. 1. 인공지능에 투입될 데이터를 깨끗하게 청소하라 활용할 데이터가 많이 축적되어 있고, 그 데이터를 100% 활용할 기술까지 완비되었다고 한들, 그 축적된 데이터들이 깔끔하게 정리되어 있지 않으면 아무 소용이 없다. 데이터의 정확도, 형태, 완성도, 적절성 등이 다 평가되고 올바로 맞춰져야 한다. 오류 많은 데이터를 100% 처리해 봐야 얻는 것은 오류 가득한 결과일 뿐이다. 그리고 인공지능 솔루션 구매하느라 버린 돈까지. 이 때 사용할 수 있는 도구는 ETL 도구들이다. 데이터 정리와 포맷 변경을 자동으로 처리해 준다. 다만 데이터 정리의 기준과 규칙 등은 인간 데이터 분석가가 지정해 주어야 한다. 소프트웨어가 알아서 회사 사정을 파악해 정리해 주지 않는다. 2. 데이터의 보안성을 확보하라 2013년부터 현재까지 14,717,618,286건의 데이터가 유출됐다. 기업들도 이를 알고 있으며, 그 어떤 곳도 네트워크가 철옹성처럼 안전하다고 말할 수 없다. 이런 상황에서 인공지능 소프트웨어가 등장해 데이터를 처리하기 시작한다면 어떤 일이 일어날까? 더 많은, 그리고 더 다양한 보안 사고가 터진다. 인공지능은 보안에 대한 감각이 없기 때문이다. 인공지능은 다양한 출처로부터 데이터를 빨아들인다. 모든 사람들에게 공개되어 있는 안전한 데이터도 흡수하고, 그 인공지능을 운영하고 있는 기업이 유료로 가입하여 얻고 있는 데이터도 학습한다. 그 외 여러 가지 출처로부터 데이터를 주입 받는데, 만약 해커들이 들락날락 하는 네트워크에 저장된 데이터를 학습하면 어떻게 될까? 그 데이터를 해커들이 일부 손을 댔다면? 당연히 잘못된 결과를 낸다. 이미 사이버 범죄자들은 이런 상황을 인지하고 있고, 여러 가지 방법으로 인공지능의 학습 과정에 개입하여 잘못된 방향으로 성장하도록 하고 있다. 이를 데이터 포이즈닝(data poisoning)이라고도 한다. 그러므로 인공지능에 투입하려는 데이터를 안전하게 보관하고 처리하는 것이 그 무엇보다 중요하다. 인공지능 시스템에 어떤 데이터가 투입되고 그 후 어떤 결과가 나오는지 꾸준히 모니터링할 필요가 있다. 3. 인공지능과 관련된 교육을 미리 진행하라 데이터 과학자나 데이터 엔지니어, 데이터 관리자의 수가 전 세계적으로 크게 모자란 상황이라는 건 누구나 알고 있을 것이다. 하지만 데이터와 관련된 모든 작업에 있어서 이런 무시무시한 전문가들이 필요한 건 아니다. 데이터를 최적화 해서 사용하고, 사용하는 데이터의 품질을 온전하게 보존하며, 기본적인 보안 규칙을 지키는 건 기초적인 일이며, 인공지능 시대에는 누구나 해야 하는 일이다. 그러므로 새로운 시대에 맞는 데이터 관리 및 활용 방법을 미리 교육해 두는 것이 좋다. 물론 갑자기 인공지능 입문학을 실시할 수는 없다. 기업 환경과 사정에 맞게, 가장 필요한 인공지능 및 데이터 활용 기술들을 실용적인 차원에서 가르치는 게 최선이다. 기술적인 교육에 더해 새로운 데이터 이용 및 관리 규정 역시 미리 설정해서 알려두면 나중에 효과가 나타난다. 글 : 메리 섀클릿(Mary Shacklett), 회장, Transworld Data [국제부 문정후 기자(globoan@boannews.com)] <저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지> |
|
|
|