보안 제품정보


생성형 인공지능 웜을 퍼트리는 멀웨어, 모델 전체를 감염시켜 2024.03.05

모리스 웜이 나온 지 35년이 지났다. 그리고 최근 실험실에서 인공지능 시대에 맞는 두 번째 모리스 웜이 등장했다. 하지만 문제의 본질 자체는 그대로다.

[보안뉴스 문가용 기자] 생성형 인공지능의 프롬프트 창을 교묘하게 이용하여 주입되는 웜이 새롭게 발견됐다. 다행히 실험실 환경에서 이스라엘의 보안 전문가들이 먼저 찾아낸 것으로, 이 공격에 성공할 경우 생성형 인공지능 모델이 멀웨어를 복제해 퍼트릴 수 있으며, 이를 통해 정보를 탈취하거나 스팸을 뿌리거나, 다른 인공지능 모델들을 오염시키는 등의 공격을 할 수 있게 된다. 이 웜에는 모리스2(Morris II)라는 이름이 붙었다. 1988년 전 세계 인터넷의 1/10을 점령했던 악명 높은 웜인 ‘모리스’에서부터 나온 이름이다.

[이미지 = gettyimagesbank]


연구원들은 이번 연구를 진행하기 위해 먼저 이메일 시스템을 하나 생성했다. 생성형 인공지능을 활용해 이메일을 보내고 받을 수 있는 시스템이었다. 그 다음으로는 생성형 인공지능에 입력할 수 있는 프롬프트 명령들로 구성된 이메일을 작성했다. 이 명령들은 검색증강생성(RAG)이라고 하는 기술을 활용하도록 꾸며진 것이었다. RAG 즉 검색증강생성이란, 인공지능 모델들이 신뢰할 만한 외부 데이터를 활용할 수 있도록 해 주는 방법 중 하나다.

공격자들은 이 RAG를 악용한 메일을 통해 인공지능의 이메일 데이터베이스를 감염시킬 수 있었다. 그렇게 한 후 이메일의 바탕이 되는 생성형 인공지능 모델에 다시 이메일을 보내면 탈옥 효과가 나타나는 걸 알게 됐다. 이를 통해 민감한 데이터를 강제로 유출시키고, 입력된 내용을 똑같이 복제하여 출력값으로 내보낼 수 있게 됐다. 입력된 값을 똑같이 복제하여 출력시킴으로서 인공지능 프롬프트에 같은 명령이 자동으로 입력되고, 인공지능 모델에서 다시 탈옥 효과를 내고, 다시 민감한 데이터를 유출시키고, 다시 입력값과 똑같은 명령을 출력값으로 내보낼 수 있게 된다.

또한 연구원들은 이러한 악성 프롬프트를 이미지 안에 삽입하여 비슷한 효과를 낼 수 있다는 사실도 입증할 수 있었다. 즉 이메일을 생성하고 보내는 인공지능을 속여 같은 악성 이미지를 계속 새로운 곳에 보내게 하고, 그럼으로써 악성 공격이 자동으로 퍼져가게 할 수 있었다는 것이다. 이를 기본 바탕으로 삼아 스팸메일이든 프로프간다 콘텐츠든 멀웨어 페이로드든 뭐든지 자동으로 번식하도록 할 수 있었다.

새로운 멀웨어, 하지만 오래된 문제
인공지능 모델들을 위협하는 것들이 계속해서 새롭게 개발되고 있는 가운데, 한 가지 패턴이 드러나고 있다. 오래된 보안 문제들이 그저 새로운 옷을 입고 나타나는 것일 뿐이라는 점이다. 이와 관련해서 보안 업체 시놉시스(Synopsys)의 R&D 관리자인 앤드류 볼스터(Andrew Bolster)는 다음과 같이 말한다. “인공지능 모델을 공격하고 감염시키고 농락하는 것이라 전혀 새로운 종류의 공격이라고 보기 쉬운데 사실은 예전의 것들이 다시 나타나는 것 뿐입니다. 이번에 발견된 RAG 악용 공격의 경우, 본질적으로 SQL 주입 공격입니다. 텍스트 입력 영역에 악성 문자열을 집어넣는 것이니까요.”

30여년 전 등장했던 모리스 웜이 특별했던 이유는, 제어를 담당하는 컴퓨터의 영역으로 데이터 공간을 집어넣는 방법을 처음으로 구현한 것이었기 때문이라는 게 볼스터의 설명이다. 이를 성공시킨 코넬대학 학생은 일반 사용자들에게 허용된 영역을 성공적으로 탈출할 수 있었고, 심지어 다른 컴퓨터에도 영향을 줬다. “컴퓨터 아키텍처의 핵심은 데이터 공간과 제어 공간이 이상적으로 교차한다는 개념 아래 구현되어 왔습니다. 처음부터 지금까지요. 제어 공간은 프로그램 명령들이라고도 할 수 있는데, 데이터 공간이 이곳의 명령 내용에 따라 잘 움직이게 되는 곳이 바로 컴퓨터라는 것이죠.”

생성형 인공지능 모델을 공격에 활용했을 때라고 하더라도 이런 ‘데이터 공간과 제어 공간 간 상호작용’이 침범된다는 면에서는 다를 것이 없다. “제어 공간과 데이터 공간의 질서를 인공지능을 가지고 효과적으로 침범하는 것이 오늘 날의 ‘인공지능 해킹’일 뿐입니다. 이전에는 소프트웨어가 두 공간 사이의 가교 역할을 했고, 그 가교를 공격자들이 악용했었죠. 소프트웨어 개발자들이 사용자들의 입력 값을 잘 거르는 방법을 고안하고 있듯이 이제 인공지능 개발자들도 비슷한 고민을 해야 할 때입니다. API의 규칙들을 잘 가다듬는 것이 하나의 방향이 될 수 있겠으나 그것만으로 본질적인 해결이 되지는 않을 겁니다. 인공지능과 컴퓨터 아키텍처의 근간을 좀 더 다루는 방법들이 나와야 할 거라고 봅니다.”

3줄 요약
1. 생성형 인공지능의 프롬프트 창을 악용하는 방법 고안됨.
2. 이 방법을 잘 따라하면 인공지능이 웜을 자동으로 퍼트림.
3. 1980년대 출현한 모리스 웜을 따라 이번 웜에는 모리스 2라는 이름이 붙음.

[국제부 문가용 기자(globoan@boannews.com)]

<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>