AI가 만들어내는 음성, 딥러닝 기반 음성합성 솔루션

Selvy deepTTS AI가 만들어내는 음성, 딥러닝 기반 음성합성 솔루션 셀바스AI 음성솔루션 소개페이지 바로가기 xVoice -  딥러닝 기술로 만들어진  셀바스 AI의 음성합성 엔진   음성합성 기술은 기계가 사...

2018년 9월 22일

AI가 만들어내는 음성, 딥러닝 기반 음성합성 솔루션


Selvy deepTTS

AI가 만들어내는 음성, 딥러닝 기반 음성합성 솔루션

셀바스AI 음성솔루션 소개페이지 바로가기



xVoice - 딥러닝 기술로 만들어진 셀바스 AI의 음성합성 엔진

 음성합성 기술은 기계가 사람처럼 말하기를 원하는 인간의 바램으로부터 시작되었습니다. 지난 수십 년간 음성합성 기술은 많은 연구자들의 노력으로 획기적인 발전을 거듭해왔습니다. 특히, 최근의 딥러닝을 활용한 음성합성 기술은 인간이 말할 때의 억양이나 미세한 호흡까지도 잘 표현합니다. 이러한 기술의 발전은 자연스러운 음성을 만들어내는 것에 그치지 않고, 감정이나 개성을 표현하는 기술로 발전 하고 있습니다. 

 우리는 지난 몇 년간 딥러닝 기반의 음성합성 기술에 집중해왔으며 상용화를 위한 우리의 목표를 달성하게 해줄 여러 의미 있는 진전을 찾아내었습니다. 

 최근 우리가 주목한 것은 sequence-to-sequence 모델에 기반을 둔 구글의 Tacotron 입니다. Tacotron은 지금까지의 음성합성 기술중 가장 자연스러운 음성을 표현하는 훌륭한 기술입니다. 그러나 이것은 특정 단어를 합성하지 않는 생략(skip)문제, 특정 단어가 반복되는 반복(repetition) 문제를 안고 있습니다. 이러한 현상은 상용화를 목표로 할 때 매우 불안정한 요소가 됩니다. 우리는 이 문제를 해결하기 위하여 노력하였으며 새로운 알고리즘과 학습레시피를 고안하여 의미 있는 성과를 얻어 냈습니다. 

 특히, 생략과 반복이 phone sequence 확률 부족과 attention 메커니즘의 불안정성 때문이라는 것에 집중하여 Advanced Encoder와 Weighted Location Attention 알고리즘을 고안하였으며 약 20여 년간 축척된 음성합성 기술의 노하우와 접목하여 xVoice를 탄생시켰습니다.
xVoice model diagram


Selvy deepTTS

셀바스AI의 Selvy deepTTS는 딥러닝 기술 기반의 음성합성 엔진 xVoice가 적용된 end-to-end 방식의 음성합성 솔루션입니다. Selvy deepTTS는 전통적인 방식의 음성합성기와 비교하여 보다 자연스러운 음성을 만들어내며, 특정인의 목소리와 발화스타일을 모방 할 수도 있습니다. 


Improving Naturalness  

 Selvy deepTTS는 사람이 발성할 때의 자연스러운 운율과 발음, 억양 등을 학습하여 자연스러운 음성을 생성합니다. 두 음절 사이의 연음, 문장 내에서의 쉼, 발성하는 동안의 작은 호흡 등을 사람처럼 자연스럽게 표현합니다. 


대화/낭독형

하나 / 유진

캐릭터

산타(5시간) / comming soon



Human-like Expressive Speech

보다 자연스럽고 감성적인 느낌씨를 표현합니다.

"음... 가능한지 확인해볼께요."


"저... 다시한번 말씀해주시겠어요?"





개인화 TTS

 xVoice는 단지 수분~수시간의 음성만으로도 그 사람의 목소리를 가진 음성합성기를 만들어 낼 수 있습니다. xVoice로 만들어진 음성합성기는 Selvy deepTTS에 탑재되어 실시간 음성합성 서비스에 활용 될 수도 있습니다.

  50대 남성 원본 / 합성음
  20대 여성 원본 / 합성음
  20대 남성 원본 / 합성음
  40대 여성 원본 / 합성음
음성데이터 - 50대 남성:20분 /  20대 남,녀:50분 /  40대 여성:50분

Overcome Skip/Repetition Problem  

 End-to-end 음성합성기술의 고질적인 문제였던 합성시 문장 일부분이 생략(skip)되거나 반복(repetition)되는 문제를 셀바스AI의 축적된 노하우(know-how)와 새로운 알고리즘을 고안하여 해결하였습니다. 

Real-Time Synthesis  

 실시간 음성 합성 기능을 제공합니다. 텍스트를 입력하고 실시간으로 음성을 생성할 수 있습니다. 텍스트를 입력하고 음성생성을 요청하여 청취하기까지의 과정이 텍스트의 길이에 상관없이 1초 이내에 이루어집니다. 

High Quality Voice

 Selvy deepTTS는 22.05KHz의 고품질 음성을 생성합니다. 우리는 지금보다 더 뛰어난 최고의 음향 품질을 선보이기 위하여 실시간 보코딩이 가능한 WaveNet을 개발하고 있습니다. WaveNet은 현존하는 보코더 중에서 최고의 음향 품질을 제공하지만 실시간으로 음성을 생성 할 수 없습니다. 우리는 최근 발표된 실시간 음성 생성을 위한 Parallel WaveNet이 이 문제를 해결해 줄 것이라 믿고 있으며, 가까운 시일 내에 Parallel WaveNet이 적용된 xVoice2를 통하여 최고의 음향품질 경험을 선보일 예정입니다.



0 개의 댓글:

댓글 쓰기

Pages