S2W, 도메인 특화 LLM으로 AI 혁신 이끌어... “분야별 맞춤형 언어 모델, AI 경쟁력 높인다” | 2024.11.21 |
방대한 데이터 학습한 범용 LLM... 심층 지식 요하는 전문 영역에선 한계 보여
특수 데이터 처리 기술 고도화한 ‘도메인 특화 LLM’으로 정밀한 솔루션 구현 [보안뉴스 박은주 기자] 인간의 언어를 이해하고 생성하도록 훈련된 인공지능(AI), ‘대규모 언어 모델(LLM)’의 등장은 자연어 처리 기술(NLP)의 급속한 발전을 이끌고 있다. 챗GPT와 같은 생성형 AI가 맥락을 파악해, 더욱 자연스러운 대화를 나눌 수 있게 된 것도 LLM의 진보 덕분이다. LLM은 데이터를 다루는 산업 전반에서 활용되며 AI 기술의 급진적인 성장을 뒷받침하는 핵심 역할을 하고 있다. ![]() [이미지=S2W] 최근 LLM은 통신, 게임, 보안, 법률 등 특정 도메인에 특화된 형태로 정교하게 발전하고 있다. 범용 LLM의 경우 방대한 데이터를 학습했음에도 심층적인 전문 지식이 필요한 영역에서 한계를 보인다. 정보보호의 취약성과 ‘환각 현상(Hallucination)’ 등 문제점도 내재하고 있기 때문이다. 이에 S2W는 특수성을 반영한 전문 지식과 데이터를 학습시켜 보다 정밀한 자체 언어 모델을 구축하고 있다. 다크웹 특화 언어 모델로 특수 데이터 처리 역량 입증, 산업 전반 확대 적용 본격화 AI 및 보안 전문 데이터 인텔리전스 기업 에스투더블유(이하 S2W)는 세계 최초의 다크웹 전용 AI 언어 모델 ‘다크버트(DarkBERT)’를 개발해 주목받고 있다. 마약 유통, 랜섬웨어, 해킹 등 각종 사이버 범죄의 온상으로 지목되는 ‘다크웹(Dark Web)’의 난해한 언어와 불법적인 콘텐츠를 분석할 수 있는 AI 언어 모델을 구축한 것이다. 이 모델은 다크웹에서 수집된 약 3억 개 페이지의 방대한 텍스트 데이터로 훈련돼 다크웹 페이지 주제 분류와 랜섬웨어 유출 사이트 탐지 등의 분석 작업에서 우수한 성능을 보이며 사이버 범죄 수사의 효율성을 강화하고 있다. 또한 다크버트를 적용한 다크웹 전용 챗봇 ‘다크챗(DarkCHAT)’을 인도네시아 정부기관에 공급된 자사의 AI 기반 빅데이터 분석 플랫폼 ‘자비스(XARVIS GLOBAL)’에 탑재해 사용자가 필요로 하는 사이버 범죄 관련 정보를 즉시 확인할 수 있도록 지원하고 있다. 다크버트에 이어 사이버 보안 특화 AI 언어 모델 ‘사이버튠(CyBERTuned)’도 공개했다. 비정형 사이버 보안 데이터, 특히 URL과 SHA 해시(Hash) 등의 비언어적 요소를 효과적으로 학습할 수 있도록 설계돼 사이버 위협 인텔리전스(CTI) 작업에서 차별화된 기능을 보여주고 있다. 이에 그치지 않고 최근에는 사이버 안보 특화 언어 모델들을 개발하며 축적해 온 NLP 기술 노하우 및 특수 데이터 처리 역량을 제조, 유통, 금융, 공공 등 다양한 산업군으로 확대 적용해 나가고 있다. [박은주 기자(boan5@boannews.com)] <저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지> |
|
![]() |