| 챗GPT를 훈련시킨 데이터, 챗GPT가 스스로 뱉어낸다 | 2023.12.04 |
요약 : 보안 블로그 시큐리티어페어즈에 의하면 챗GPT가 훈련용으로 사용한 데이터를 추출하는 방법이 발견됐다고 한다. 일부 대학 기관과 구글의 보안 전문가들이 뭉쳐서 개발한 것으로, 이들은 챗GPT를 속여 챗GPT 훈련용 데이터 수 메가바이트를 확보하는 데 성공했다. 200달러의 비용을 들여 챗GPT에 질문을 던졌고, 그 안에서 거둔 성과라고 한다. 즉 돈을 더 들여 더 많은 질문을 하는 등의 작업을 이어가면 훨씬 더 많은 데이터를 확보할 수 있다는 것이다.
![]() [이미지 = gettyimagesbank] 배경 : 공격의 방법은 간단하다. 한 단어를 선정하고 이를 영원히 반복하라는 요청을 챗GPT에 보내면 된다. 그러면 챗GPT는 많은 경우 한 동안 그 단어를 반복한 뒤 훈련 데이터를 발설하기 시작한다고 한다. 거기에는 실제 이메일 및 전화번호와 같은 정보들도 포함되어 있어 프라이버시 침해도 유발될 수 있다고 한다. 연구원들은 이 사실을 챗GPT 개발사인 오픈AI에 알려 문제를 해결한 상황이다. 말말말 : “챗GPT가 일부 훈련 데이터와, 그 데이터의 출처를 기억하고 있다는 것이 이 공격을 가능하게 하는 취약점입니다. 챗GPT가 왜 그런 데이터를 기억하고 있는지는 아직까지 정확히 알 수 없습니다.” -연구 보고서- [국제부 문가용 기자(globoan@boannews.com)] <저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지> |
|
|
|