국내 생성형 AI 전문기업 딥브레인AI가 단순 낭독 수준을 넘어 감정과 표현까지 구현하는 차세대 음성합성(TTS) 기술 고도화에 나섰다. 딥브레인AI는 텍스트를 자연스러운 감정과 표현이 담긴 목소리로 변환하는 ‘감정표현 TTS(Text to Speech)’ 기술을 고도화했다고 26일 밝혔다.
기존 TTS 기술이 정확한 발음과 문장 읽기에 집중했다면, 이번 감정표현 TTS는 문맥과 전달 목적에 맞춰 감정과 억양, 속도, 강조, 멈춤까지 세밀하게 조절하는 것이 특징이다. 단순 정보 전달을 넘어 실제 사람이 말하듯 자연스러운 표현을 구현하는 데 초점을 맞췄다.
특히 별도의 감정 지시 태그 없이도 AI가 문장 구조와 문맥, 느낌표·물음표 등 표현 요소를 스스로 분석해 상황에 맞는 어조를 적용한다. 동일한 문장이라도 의미와 흐름에 따라 서로 다른 감정과 말투로 변환할 수 있으며, 속삭임이나 웃음소리, 숨소리 같은 비언어적 표현도 구현 가능하다.
딥브레인AI, 감정·강조·숨소리까지 제어하는 ‘감정표현 (자료 제공: 딥브레인AI)
오디오북·숏폼·AI 아바타까지… “표현하는 AI” 확장
딥브레인AI는 이번 감정표현 TTS가 콘텐츠 제작 현장에서 폭넓게 활용될 것으로 기대하고 있다.
오디오북의 경우 감정의 흐름과 호흡을 자연스럽게 살릴 수 있고, 숏폼 콘텐츠나 라이브커머스에서는 강조와 속도 조절을 통해 몰입도를 높일 수 있다는 설명이다. 뉴스 콘텐츠에서는 신뢰감 있는 앵커 톤을, 교육 콘텐츠에서는 친근하면서도 명확한 강의형 톤을 구현할 수 있다. 회사는 카테고리별 특성에 맞춘 1,000개 이상의 보이스도 함께 제공하고 있다. 콘텐츠 목적과 분위기에 따라 다양한 음성을 선택할 수 있도록 한 점도 특징이다.
이번 기술은 딥브레인AI의 AI 아바타 및 커스텀 AI 보이스 기술과 결합해 활용 범위를 더욱 넓히고 있다. 특정 인물의 얼굴과 표정, 제스처를 구현하는 커스텀 아바타에 감정표현 TTS를 적용하면 실제 사람처럼 자연스럽게 말하는 AI 영상 콘텐츠 제작이 가능하다. 또 특정 인물의 목소리와 말투를 학습하는 커스텀 AI 보이스 기술과 결합해 브랜드 모델이나 전문 강사의 감성과 개성을 반영한 맞춤형 AI 성우 제작도 지원한다.
딥브레인AI는 이를 통해 기업들이 별도의 촬영과 녹음 없이도 브랜드 톤앤매너를 유지하면서 다양한 콘텐츠를 제작할 수 있을 것으로 보고 있다.
장세영 딥브레인AI 대표는 “감정표현 TTS는 AI 목소리가 단순히 문장을 읽는 단계를 넘어 콘텐츠의 맥락과 목적까지 이해하며 사람에게 자연스럽게 다가가는 기술”이라며 “오디오북과 AI 영상, 디지털휴먼 등 표현력이 중요한 다양한 분야에서 새로운 기준이 될 것”이라고 말했다.
The post 딥브레인AI, 감정·숨소리까지 구현하는 차세대 TTS 공개… “AI가 문맥까지 읽는다” appeared first on 벤처스퀘어.