알리바바, 멀티모달 AI ‘Qwen2.5-Omni-7B’ 공개 | 2025.03.31 |
알리바바의 경량형 멀티모달 AI 모델 공개
[보안뉴스 조재호 기자] 알리바바는 자사 인공지능(AI) 큐원(Qwen) 시리즈의 멀티모달 모델 ‘Qwen2.5-Omni-7B’를 공개했다고 31일 밝혔다. 이번 모델은 멀티모달 기능에 방점이 찍혔다. 텍스트와 이미지, 음성, 영상 등 다양한 형태의 입력 정보를 처리해 텍스트나 음성으로 답변한다. 70억개의 파라미터를 지닌 가벼운 모델로 모바일이나 노트북, 에지 디바이스에 최적화됐다. ![]() ▲[자료: 알리바바 클라우드] 콤팩트한 설계에도 성능 저하 없이 강력한 멀티모달 처리 기능을 제공해 지능형 음성 애플리케이션처럼 민첩하고 비용 효율적인 AI 에이전트 개발에 적합한 모델이라고 회사측은 설명했다. 지능형 고객 응대 시스템이나 영상 속 음식의 조리법 가이드 제공, 시각장애인 음성 안내 등에 활용 가능하다. Qwen2.5-Omni-7B은 허깅페이스와 깃허브에서 오픈소스로 공개됐다. 큐원 챗이나 알리바클라우드의 오픈소스 커뮤니티 모델스코프에서도 만나볼 수 있다. 회사는 이 모델이 비슷한 규모의 단일 모달리티 특화 모델과 비교해도 뒤처지지 않는다고 소개했다. 특히 실시간 음성 상호작용과 종단간 음성 명령어 이행 등에서 높은 벤치마크 성적을 보였다. ![]() ▲[자료: 알리바바 클라우드] 아울러 Qwen2.5-Omni-7B는 인컨텍스트 러닝(ICL·in-context learning)을 통해 상황과 맥락에 따른 음성 이해와 생성 능력을 올렸다. 강화학습(RL·Reinforcement Learning) 기반 최적화로 생성 안정성 향상과 함께 음성 응답의 발음 오류나 부자연스러운 정지 현상 등을 줄였다. [조재호 기자(sw@boannews.com)] <저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지> |
|
![]() |