보안 제품정보


인공지능의 다음 스텝은 ‘블랙박스’ 내부를 해석하고 설명하기 2022.05.02

2022년 4월이라는 현 시점에서 인공지능 분야는 ‘설명’을 위해 역량을 집중시키고 있다. 더 이상 인공지능에 블랙박스라는 이름이 붙는 걸 허용할 수 없다는 것이다. 인공지능이 뛰어난 것과는 별개로 어떤 일이 그 안에서 벌어지고 있는지 사람들은 알고 싶어 한다.

[보안뉴스 문정후 기자] 지난 수년 동안 인공지능은 빠르게 진화해 왔다. 점점 응용 분야도 많아지고 있으며 인공지능에 더 잘 어울리는 혹은 인공지능이 필요한 산업이라는 것도 딱히 없어지고 있다. 어느 산업에서나 가장 혁신적인 도구로서 인공지능은 많은 기대를 받고 있기도 하고, 이미 활용되고 있기도 하다. 

[이미지 = utoimage]


예를 들어 인공지능 덕분에 사기 탐지는 이전과 비교도 할수 없을 정도로 정교하고 빨라졌다. 이 때문에 금융권은 물론 기업들의 피해도 크게 줄어들고 있는 상황이다. 하지만 인공지능에 의한 의사 결정이 만연해지자 투명성에 대한 우려가 나오고 있다. 인공지능이 어떤 절차로 이러한 결론에 도달했는지에 대한 설명을 누군가는 할 수 있어야 하고 사용자는 이해할 수 있어야 한다는 것이다.

현재 인공지능 분야에서(그리고 인공지능의 맛을 본 사용자들 사이에서) 가장 중요한 화두가 바로 이 설명 가능성 혹은 해석 가능성이다. 인공지능이 내린 결정이 많아지면 많아질수록 어떻게 그러한 결과가 도출되었는지 알고 싶다는 목소리가 커지는 건 당연한 일이다. 기술 연구자 팀 밀러(Tim Miller)는 “아무리 정확한 결정을 내리는 기술이라고 하더라도 인간이 이해할 수 없다면 그 기술의 생명력은 길 수 없다”고 말한다. 인공지능이라는 기술이 앞으로 나아감에 있어서 반드시 해결해야 하는 문제라는 뜻이다.

사기 방지라는 것에 있어서 인공지능이 어떠한 활약을 하는지 정확히 이해하려면 개발자, 소비자, 경영자 모두 사기 방지의 의미와 절차를 이해해야 한다. 하지만 변수 몇 가지, 매개변수 몇 개가 설명 과정 중에 나타나는 순간 이를 이해한다는 건 일반인들에게 매우 복잡하고 난해한 일이 된다. 그렇기에 인공지능이 하는 일들을 이해할 수 없다는 의미에서 ‘블랙박스 모델’이라는 표현이 나왔는데, 최근에는 이 블랙박스 안에서 일어나는 일들을 해석해 주는 도구들이 바삐 개발되는 중이다. 이런 도구들이 앞으로 더 많이 나오고 발전한다면 사람들은 인공지능 모델을 보다 더 깊이 이해하고, 그러므로 인공지능을 더 신뢰할 수 있게 될 것이다. 그런 때가 되면 인공지능이 내리는 결정들이 더 큰 의미를 갖게 될 것이다.

해석에 사용되는 도구와 기술들
현재 가장 널리 사용되는 해석 도구라고 한다면 SHAP이라는 것이 있다. 셰플리 가산 설명(Shapley Additive Explanations)의 약자다. 협력적 게임 이론의 셰플리 값들을 계산하는 것인데, 신경망을 기반으로 한 설명 방법론들보다 훨씬 향상된 모습을 보여준다. 하지만 이 외에도 여러 가지 설명의 기법들이 계속해서 탐구되는 중이다.

블랙박스의 반대편에는 화이트박스라는 말도 존재한다. 사기 방지 모델에 있어서 사기 위험성의 점수를 계산하는 규칙과 공식이 담긴 엔진이다. 블랙박스는 인공지능 알고리즘에 투입된 각종 데이터를 알고리즘이 알아서 처리하여 결과를 내는 모델이고, 화이트박스는 미리 설정된 규칙을 기반으로 하여 점수를 내는 모델이다. 전자는 결정을 내리고, 후자는 결정에 필요한 점수를 준다. 둘 사이에는 분명한 차이가 있고, 둘 다 활용할 필요가 있다. 예를 들어 블랙박스 모델이 ‘사기’라고 규정한 사안들을 통해 화이트박스의 규칙들을 보다 정교하게 가다듬을 수 있다.

블랙박스 모델을 SHAP과 조합할 경우 우리는 해당 모델의 전반적인 행동 특성을 이해할 수 있게 되고, 모델이 사기 활동을 탐지하기 위해 사용하는 주요 기능들이 무엇인지 알 수 있게 된다. 여기에 더해 모델에 내포된 편향성도 어느 정도 이해할 수 있는데, 예를 들어 특정 인종이나 단체에 가산점을 부여하거나 뺀다는 점을 유추할 수 있게 되는 경우가 종종 있다. 이런 특성을 미리 발견해 막을 수 있게 된다는 건 인공지능 모델 관리에 있어서 꽤나 중요하다.

블랙박스 모델과 SHAP를 결합했을 때, 모델이 낸 예측들 하나하나를 이해하는 데에도 이를 수 있게 된다. 디버깅 기능 덕분이다. 머신러닝 모델들의 디버깅 과정에서 데이터 과학자들은 예측 내용들을 개별적으로 관찰하고 해석할 수 있게 되며, 이 과정을 통해 해당 모델이 어떤 일을 수행하는지를 보다 명확히 이해할 수 있게 된다. 여기에까지 도달했으면 인공지능 모델의 세부적인 수정도 시도할 수 있게 된다. 그러므로 SHAP를 사용하면 최종 사용자가 인공지능 모델의 필수적 기능에 대해 이해할 수 있게 되는 것만이 아니라 각 기능이 최종 결과를 도출하는 데 어떤 역할을 얼마나 담당하는지까지도 알게 되는 것이다. 

EBM이라는 것도 있다. ‘설명 가능한 부스팅 머신(Explainable Boosting Machine)’의 준말이다. 마이크로소프트의 인공지능 프레임워크인 인터프릿ML(InterpretML)의 플래그십 결과물이며, ‘글래스박스’ 모델이라고 불리기도 한다. 블랙박스도 아니고, 화이트박스도 아닌, 아예 처음부터 투명하게 안쪽을 들여다 볼 수 있도록 만들어진 구조를 가지고 있다는 뜻이다. 구성 자체가 사람의 이해를 돕기 위한 목적으로 만들어져 있다. 다만 EBM을 훈련시키는 과정이 다른 일반 머신러닝 모델들보다 조금 길다는 단점이 있다. 이 기간만 지나면 매우 정확하고 이해하기 쉬운 결과물을 받아볼 수 있다는 게 마이크로소프트의 설명이다.

신뢰 인자
여태까지 설명한 것처럼 사기 탐지 활동에 대한 결과도 좋고, 그 결과에 대한 설명까지 가능하게 된다면 고객들(사용자들)의 신뢰도가 올라가게 된다. 이는 당연한 결과다. 사람은 이해할 수 있는 것에 더 신뢰감을 주기 때문이다. 이해할 수 없는 것을 싫어하기까지 하는 게 인간의 본성이다. 인공지능을 설명해 주는 도구들의 도움으로 우리는 조금씩 블랙박스라고 일컫던 것들의 내부를 들여다볼 수 있게 되었고, 더 깊이 이해할 수 있게 되었으며, 그러므로 더 신뢰할 수 있을 것으로 보인다. 인공지능은 사용자의 신뢰를 바탕으로 더 빠르게 향상할 것이고 말이다.

결국 기업들에 있어 필요한 건 정확하기 만한 결정이 아니다. 정확하면서도 그 결정의 과정을 이해할 수 있어야 한다. ‘아무튼 이게 맞는 답’이라고 해 봐야, 그게 정말 맞는 답이라고 해도 사람들의 마음을 시원하게 할 수 없다. 인공지능이라는 것이 아무리 혁신적이어도 결국 사람들의 손끝에 달린 도구다. 사람들은 자신이 사용하는 도구를 이해하고 싶어 하지, 그것에 맹목적으로 따르고자 하지 않는다. 하지만 이해를 바탕으로 신뢰가 생긴 사람은 인공지능의 향상에 가장 큰 후원자가 될 것이다. 인공지능에 대한 사람들의 불신이나 꺼림칙함을 그저 할리우드 영화들에 돌리지 말자.

글 : 데이비드 유타시(David Utassy), 데이터 과학자, SEON
[국제부 문정후 기자(globoan@boannews.com)]

<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>