| 공급망 공격이 인공지능과 만난다면? 인공지능 리포지터리 비상 | 2024.03.19 |
각종 공공 리포지터리를 공략하고 있는 공격자들이 인공지능 생태계의 리포지터리들에도 관심을 갖기 시작했다. 특히 현재 업계 1위를 차지하고 있는 허깅페이스가 집중 공략 대상이 되려는 조짐이 보이고 있다.
[보안뉴스 문가용 기자] 머신러닝 모델들의 활발한 개발과 공유를 위해서도 리포지터리 플랫폼들이 하나 둘 활성화되고 있다. 허깅페이스(Hugging Face)가 현재는 가장 유명하다고 할 수 있는데, 앞으로 더 많은 플랫폼들이 활성화 될 가능성이 높다. 문제는 코드 리포지터리나 컨테이너 이미지 허브 등 IT 공유 플랫폼들을 노리는 데 도가 튼 공격자들이 인공지능 플랫폼들까지 넘보기 시작했다는 것이다. ![]() [이미지 = gettyimagesbank] 드롭박스(Dropbox)의 보안 연구원 두 명은 최근 허깅페이스라는 머신러닝 플랫폼을 통해 멀웨어를 확산시키는 방법을 여러 개 발견해 선보였다. 기존 오픈소스 리포지터리들을 공격하는 것과 본질적으로 크게 다르지 않다고 하며, 그러므로 의지만 있으면 충분히 막을 수 있다고 연구원들은 강조했다. “머신러닝 생태계에도 파이프라인이 존재하고, 이는 공급망 공격에 맛을 들인 사이버 공격자들의 새로운 표적이 되기에 충분합니다. 그러므로 기존 공급망 공격을 참고하여 인공지능 생태계도 보호하는 조치를 취해야 합니다.” 드롭박스의 엔지니어 아드리안 우드(Adrian Wood)의 설명이다. 또 다른 연구원인 매리 워커(Mary Walker)는 “허깅페이스와 같은 신규 머신러닝 모델 공유 플랫폼의 매력은, 인공지능이라는 특성 상 방대한 분량의 데이터가 관여되어 있다는 것과 비교적 새로운 플랫폼이라 보안에 대해서 사용자들이 크게 신경 쓰지 않는다는 것”이라고 설명한다. “플랫폼이 새로우니 사용자들과 관련된 데이터도 들쭉날쭉 합니다. 예를 들어 무명의 누군가가 올려둔 머신러닝 모델의 인기가 갑자기 예고도 없이 급상승하기도 합니다. 모두가 새 장난감을 가지고 노는 중이라 신나고 흥분되어 있죠.” 머신러닝 파이프라인, 떠오르는 공격 대상 허깅페이스는 머신러닝 개발자들을 위한 리포지터리로, 사용자들은 여기서 다른 개발자의 모델을 다운로드해 사용할 수도 있고 자신의 것을 업로드할 수도 있다. 다른 공공 코드 리포지터리들이 다 그렇지만 허깅페이스 역시 인기 높은 것들이 생기고 주목을 받는다. 플랫폼 자체에도 보안 장치들이 적용되어 있다. 그래서 민감한 정보나 기밀, 악성 코드나 취약점이 있으면 최대한 걸러낸다. 이건 여느 리포지터리들이 보여주는 특징이기도 하다. 다만 플랫폼의 보안 장치만 믿어서는 반드시 뚫린다는 것을 기억해야 한다. “저의 경우 가장 간단하게는 유명 브랜드를 사칭해 이름 공간을 미리 등록하거나 확보해두는 것이 대단히 쉽다는 것을 발견했습니다. 그 상태에서 제가 모델을 업로드하면 사용자들은 대부분 제가 그 유명 브랜드일 거라고 생각할 겁니다. 그렇게 되면 제가 뭘 올려도 크게 확인하지 않겠죠. 이것 하나만으로도 꽤나 효과적으로 공격을 실시할 수 있게 됩니다.” 우드의 설명이다. 그 다음 효과적으로 사용해봄직한 공격법은 타이포스쿼팅으로, 정상적인 모델의 이름을 본따 악성 모델을 만든 뒤, 그 이름을 약간만 바꾸는 것이다. 그래서 해당 모델을 검색했을 때 오타를 내면 공격자의 악성 모델이 검색되도록 유도하는 것으로 이미 공공 리포지터리에서 널리 사용되는 기법이다. “인지도 높은 인공지능 모델의 이름만 본따지 않아도 됩니다. 비밀 혹은 개인 프로젝트의 이름도 이런 식으로 악용할 수 있습니다. 그럴 경우 해당 프로젝트에 참여한 개발자들을 표적 공격하는 것도 가능합니다.” 그 외 방법들은 곧 열리는 블랙햇 아시아를 통해 공개될 예정이라고 한다. 머신러닝 리포지터리와 멀웨어 보안 업체 제이프로그(JFrog)는 이미 올해 초 “머신러닝 리포지터리들에 눈독을 들이는 공격자들이 많다”고 발표한 적이 있다. 그 때에도 허깅페이스가 언급이 됐는데, 그도 그럴 것이 허깅페이스가 머신러닝 생태계에서는 가장 유명한 리포지터리이기 때문이다. 당시에도 제이프로그는 피해자의 시스템을 장악하는 기능을 가진 악성 코드를 발견했었다. “특정 인공지능 모델들을 다운로드 받아 실행시키면 멀웨어가 로딩되도록 일을 꾸민 것이죠. 저희가 발견한 것은 파이선 코드가 실행되도록 하는 파이선 기반 멀웨어였습니다. 그렇기 때문에 매번 파일이나 모델의 출처를 두 번 세 번 확인하는 것이 중요합니다. 머신러닝처럼 비교적 새로운 기술을 공유하는 곳이라면 출처 확인이 더욱 중요해집니다.” 3줄 요약 1. 인공지능 모델들도 자유롭게 공유되기 시작. 2. 그러면서 리포지터리 개념의 플랫폼들이 활성화 되고 있음. 3. 이미 공격자들은 이런 리포지터리들을 통해 공급망 공격을 시도 중. [국제부 문가용 기자(globoan@boannews.com)] <저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지> |
|
|
|