보안 제품정보


[한국정보보호학회 칼럼] AI 모델 보안과 안전 그리고 신뢰 2025.11.11

물리적 AI 시대, 사이버 보안과 기능 안전의 경계 사라져...예방적 패러다임으로 전환 필요해

[보안뉴스= 권태경 한국정보보호학회 AI보안연구회 위원장] 2022년 11월 30일, 오픈AI(OpenAI)가 챗GPT를 공식 발표하면서 촉발한 ‘Post-ChatGPT’ 시대는 이제 겨우 만 3년을 지나고 있지만, 우리는 또다시 거대한 변화의 변곡점 위에 서 있다. 인공지능(AI) 기술이 ‘생성형 AI(Generative AI)’의 대표 격인 대규모 언어 모델(LLM)을 넘어, 이제 자율적으로 판단하고 행동하는 ‘에이전틱 AI(Agentic AI)’, 그리고 현실 세계와 상호작용하는 ‘물리적 AI(Physical AI)’로 빠르게 진화하고 있기 때문이다. 이러한 발전은 단순한 기술적 진보를 넘어, 우리가 마주할 리스크의 본질을 근본적으로 바꾸고 있다. AI가 자율성과 물리적 실체를 갖게 되어감에 따라 질적으로 변형되어 새로운 차원의 위협을 만들어내는 것이다. 이제 우리의 현실은 정보 유출과 가짜뉴스 생성의 시대를 지나, 시스템 운영의 마비와 실질적인 물리적 피해를 걱정해야 하는 시점에 도달하고 있다.

[자료: gettyimagesbank]


‘Post-ChatGPT’ 시대의 AI 리스크는 크게 세 가지 파동으로 구분할 수 있다. 첫 번째 파동인 LLM 단계에서는 정보의 무결성과 데이터 기밀성 보호가 핵심 과제였다. 두 번째 파동인 에이전틱 AI는 리스크를 비인가된 행동과 시스템 조작으로 확장한다. 마지막 세 번째 파동인 물리적 AI에서 리스크는 현실 세계의 물리적 안전과 보안 문제로 귀결된다. 필자는 현재 한국정보보호학회 AI보안연구회 위원장으로서, 특히 과학기술정보통신부 지원 IITP 과제인 ‘AI 모델 취약성 분석, 평가 기술 및 생성 정보 비밀성 판단 도구 개발’ 연구를 수행하며 AI 보안의 중요성을 널리 알리려 경주하고 있다. 이번 칼럼에서는 이와 같은 노력의 하나로, OWASP Top 10에 정의된 LLM의 취약점을 시작으로 이와 같이 근본적인 취약점이 에이전틱·물리적 단계로 발전하면서 어떻게 증폭되는지를 짚어보고, 신뢰할 수 있는 AI를 위한 실천적 방향을 제시하고자 한다.

Post-ChatGPT 시대의 AI 시스템이 갖는 근본적인 문제는 ‘명령어’와 ‘데이터’의 경계가 모호하다는 사실에서 비롯된다. 예를 들면, LLM이 처리하는 모든 데이터는 잠재적으로 명령어로 해석될 수 있는데, 바로 이 문제가 가장 심각한 AI 공격의 근원이 되는 것이다. 가장 대표적인 ‘프롬프트 인젝션(Prompt Injection)’은 조작된 입력을 통해 LLM이 의도치 않은 행동을 하도록 유도하는 공격이다. 시스템 프롬프트를 직접 덮어쓰는 직접 주입 방식은 물론, 웹사이트나 문서 등 외부 데이터 소스에 악성 명령어를 숨겨두는 간접 주입 방식도 존재한다. 이러한 공격은 ‘부적절한 출력 처리(Insecure Output Handling)’ 취약점과 만났을 때 그 파괴력이 더욱 커진다. 애플리케이션이 LLM의 생성 결과를 검증 없이 신뢰하고 사용할 경우, 크로스 사이트 스크립팅(XSS)이나 원격 코드 실행(RCE) 같은 전통적인 웹 취약점으로 즉각 이어지기 때문이다.

사실 이 둘은 별개의 문제가 아니라, LLM을 중간 경유지로 삼아 시스템 상태를 조작하는 하나의 연속된 공격 단계다. AI의 신뢰성을 내부로부터 무너뜨리는 공격도 심각하다. ‘학습 데이터 오염(Training Data Poisoning)’은 사전 학습이나 미세조정 단계에서 데이터를 조작해 모델에 백도어, 편향, 취약점을 주입한다. ‘공급망 취약점(Supply Chain Vulnerabilities)’은 허깅페이스와 같은 공개 리포지터리에서 가져온 사전 학습 모델이나 플러그인 하나가 전체 시스템을 위험에 빠뜨리는 것을 의미한다. 이는 데이터 수집부터 모델 배포에 이르는 MLOps(머신러닝 운영) 파이프라인 전체의 무결성 관리가 얼마나 중요한지 역설한다.

마지막으로 ‘잘못된 위임’의 문제도 있다. LLM에 필요 이상의 기능을 부여하는 ‘과도한 권한 부여(Excessive Agency)’는 공격자의 놀이터가 될 수 있게 만든다. 직원 이메일 요약 AI에 ‘발송’ 권한까지 부여하면, 공격자의 조종으로 기밀 데이터를 외부로 유출하는 데 악용될 수 있다. 사용자가 AI의 출력을 비판 없이 수용하는 ‘과잉 의존(Overreliance)’ 역시 인간 중심의 취약점이다. 최근 에어캐나다 챗봇이 존재하지 않는 환불 규정을 안내해 회사가 법적 책임을 진 사례는, 이것이 실제 금전적, 법적 책임으로 이어진다는 것을 명확히 보여준다.

자율적인 다중 에이전트 시스템에 LLM이 도입되면, 앞서 논의된 근본적인 취약점들은 고립된 사건이 아닌 시스템 전체를 위협하는 ‘연쇄적 실패’로 변모한다. 보안 전문가 사이먼 윌리슨이 제시한 ‘치명적 삼박자(Lethal Trifecta)’는 에이전틱 AI의 구조적 위험을 잘 보여준다. 이는 ①민감 데이터 접근 ②신뢰할 수 없는 콘텐츠(외부 데이터) 노출 ③외부 통신 능력(API 등)의 위험한 조합을 의미한다. 공개 지원 티켓(신뢰할 수 없는 콘텐츠)을 처리하는 AI 에이전트가 악성 프롬프트에 속아 내부 인증 토큰(민감 데이터)을 추출한 뒤, 이를 공개 댓글로 게시(외부 통신)하는 시나리오가 현실이 될 수 있다.

에이전트 시스템에서 진정한 위험은 이와 같은 단일 실패가 아니라, 오히려 그 실패가 상호 연결된 시스템 전체로 전파되어 예측 불가능한 결과를 낳는다는 점에 있다. 이것을 ‘연쇄적 취약점(Chained Vulnerabilities)’이라고 할 수 있다. 한 에이전트의 논리적 결함이나 데이터 처리 오류가 후속 에이전트들에게 연쇄적으로 전달되어 오류를 증폭시키는 것을 의미한다. 또한, ‘교차 에이전트 작업 권한 상승(Cross-Agent Task Escalation)’도 무시할 수 없다. 손상된 에이전트가 다른 에이전트와의 신뢰 관계를 악용해 비인가된 권한을 획득하는 공격이 가능한 것이다.

이는 AI 보안의 패러다임 전환을 요구한다. 전통적인 보안이 자산(서버, 데이터)과 ‘상태’를 보호하는 데 중점을 두었다면, 에이전틱 AI 보안은 자율적인 다단계 ‘프로세스’를 보호해야 한다.

추가로 에이전틱 AI는 ‘디지털 내부자(Digital Insider)’라는 새로운 유형의 내부자 위협을 만들어낸다. 시스템 내에서 권한을 부여받고 활동하는 AI 에이전트는, 만약 손상되거나 잘못 정렬되면 악의적인 인간 내부자와 동일하게 행동할 수 있는 것이다. 따라서 모든 에이전트의 행동을 지속적으로 검증하는 ‘제로 트러스트(Zero Trust)’ 모델로의 전환이 필수적이다.

이것이 다가 아니다. AI 리스크의 가장 심각한 단계는 디지털 취약점이 물리적 위험으로 현실화하는 지점이다. 자율주행차, 산업용 로봇과 같은 물리적 AI 시스템은 고유한 보안 및 안전 문제를 제기한다. 물리적 AI는 세상을 인식하기 위해 인식 모델에 의존하며, 이 모델들은 특히 기존에 잘 알려진 ‘적대적 예제(Adversarial Examples)’에 취약하다. 이는 이미 학계에서도 많이 연구된 바와 같이, 인간의 눈에는 거의 감지되지 않는 미세한 조작을 통해 AI가 치명적인 오판을 내리도록 만드는 공격이다. 자율주행차 연구에서 정지 표지판에 작은 스티커를 붙이는 것만으로도 차량이 이를 속도 제한 표지판으로 오인하거나 아예 인식하지 못하게 만들 수 있음이 입증되었다.

물리적 AI를 제어하는 디지털 인프라 역시 공격자의 주요 표적이다. 이는 산업 제어 시스템(ICS) 보안의 진화된 형태다. LLM 플러그인의 취약점이나 안전하지 않은 API는 공격자가 로봇을 원격으로 탈취하는 진입점이 될 수 있다. 공격자는 로봇의 핵심 안전 기능을 비활성화하거나, 위험한 동작을 수행하도록 명령하거나, 자동화된 공장 전체를 랜섬웨어의 인질로 삼을 수도 있다. 특히 인간과 물리적 AI의 상호작용은 ‘신뢰 편향(Trust Bias)’이라는 독특한 안전 문제를 일으킨다. 인간이 자동화 시스템을 과도하게 신뢰해 감독을 소홀히 할 때, AI가 예외적인 상황에 직면하면 치명적인 안전의 공백이 발생할 수 있는 것이다.

이와 같이 물리적 AI 시대에는 사이버 보안(Security)과 기능 안전(Safety)의 경계가 사라질 것이다. 적대적 예제와 같은 디지털 보안 결함이 곧바로 물리적 안전 위험이 되기 때문이다. 이제 공격 표면은 물리적 환경 그 자체로 확장되어, 공격자는 더 이상 네트워크를 침투할 필요 없이, 정지 표지판에 스티커를 붙이는 것처럼 현실 세계의 객체를 조작해 AI를 공격할 수도 있다. 데이터 조작이라는 단일 취약점이 LLM에서는 편향된 텍스트를 생성하는 문제에 그치지만, 에이전틱 AI에서는 시스템적인 금융 사기를 유발하고, 물리적 AI에서는 차량 충돌 사고로 이어질 수 있다.

이처럼 AI 리스크는 기하급수적으로 증폭된다. 이러한 위협에 대응하기 위해서는 기술적 해결책을 넘어선 포괄적인 접근이 필요하다. 미국 국립표준기술연구소(NIST)의 ‘AI 위험 관리 프레임워크(AI RMF)’는 거버넌스(Govern), 매핑(Map), 측정(Measure), 관리(Manage)라는 네 가지 핵심 기능을 통해 조직이 AI 생애주기 전반에 걸쳐 위험을 식별, 평가, 완화하도록 돕는 핵심적인 거버넌스 모델을 제공한다. 또한, 보안은 더 이상 사후 대응이 아닌, MLOps 파이프라인의 모든 단계에 내재해야 한다. 데이터 소싱부터 모델 배포 및 모니터링에 이르기까지, CI/CD 파이프라인 내 자동화된 보안 스캐닝과 같은 ‘보안 MLOps(Secure MLOps)’ 관행이 필수적이다. 신뢰할 수 있는 AI를 구축하는 것은 우리 모두의 공동 책임이다. 이를 위해서는 취약점을 사후에 패치하는 반응적 접근에서 벗어나, 위험을 사전에 관리하는 예방적 패러다임으로의 근본적인 전환이 필요하다. 보안, 안전, 그리고 신뢰는 AI시대의 부가 기능이 아니라, 미래를 지탱하는 가장 핵심적인 기반이 되어야 한다.

[글= 권태경 한국정보보호학회 AI보안연구회 위원장, 연세대학교 정보대학원 교수]

<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>