AI가 만들어내는 음성, 딥러닝 기반 음성합성 솔루션

Selvy deepTTS AI가 만들어내는 음성, 딥러닝 기반 음성합성 솔루션 셀바스AI 음성솔루션 소개페이지 바로가기 xVoice -  딥러닝 기술로 만들어진  셀바스 AI의 음성합성 엔진   음성합성 기술은 기계가 사...

2018년 9월 20일

02.<음성합성이 뭐야?> 음성은 어떻게 만들어지나?


음성은 어떻게 만들어지나

음성합성 기술을 이해하기 위해서는 인간이 음성을 만들어내는 원리와 언어학에 대한 아주 약간의 이해가 필요하다.
Speech chain  [1]


   먼저 인간이 의사소통을 하기위하여 음성을 만들어 내는 과정을 살펴보자. 일상적인 대화에서 화자(Speaker)는 말을하고 청자(Listener)는 듣는다. 음성연쇄(Speech chain)은 이처럼 화자가 청자에게 말을 하는 과정에서 인간의 몸 안에서 일어나는 메커니즘을 정의한 것이다. 위의 그림은 대표적인 음성연쇄(Speech chain)을 표현한 그림이다. 그림을 살펴보면 화자(Speaker)는 청자에게 의사를 전달하기 위한 메세지를 뇌에서 만들어낸다. 이때 화자는 자신이 습득한 언어,역사,기술 등의 모든 지식을 총동원하게 된다. 이 과정을 언어적 단계라고 한다.
  뇌에서 만들어진 메세지는 중추신경계를 통해 말소리로 만들어져야 한다. 뇌는 메세지를 말소리로 만들기 위해 발성 근육을 움직이기 시작한다. 사실 발성 근육을 움직이는 것은 인간의 일반적인 운동작용과 비교하면 매우 복잡하고 큰 노력이 필요한 일이다. 왜냐하면 뇌가 간직한 언어정보를 비롯하여, 상대에대한 정보, 상황에 대한 판단 등 매우 많은 복잡한 정보간의 상호작용을 통해 말소리의 크기, 톤, 말하는 스타일 등을 종합적으로 판단하여 결정해야 하기 때문이다. 발성근육을 움직이기위한 이러한 과정을 생리적 단계라 한다.
  생리적 단계에서는 우리 몸의 신체 기관들을 움직여 음성을 만들어 내는데 음성을 만드는 신체기관을 조음 기관이라 부른다. 조음기관이 음성을 만들어내는 원리는 현대 음성 합성 기술의 중요한 지식 기반이 되었다.
  이렇게 만들어진 음성은 공기를 매개체로 청자에게 전달되는데 공기를 통해 전달되는 음성을 컴퓨터를 통해 분석하기위해 전기신호로 바꾼것을 음향신호라 한다.

뒤에서 설명하겠지만 음성합성기의 역사를 살펴보면 초기에는 조음기관의 말소리 생성 원리를 이용하여 조음기관의 하드웨어적 형태를 그대로 모델링하려고 하였다. 그러나 점차 컴퓨터 기술이 발전하면서 신호처리 기술을 이용하여 음향신호를 직접 만들어내는 방향으로 기술이 발전 하였다. 이렇게 만들어진 말소리는 공기를 진동시켜 청자의 귀로 전달된다.

사람이 말소리를 만들어내는 speech chain을 간단하게 살펴 보았다. 다소 추상적이지만 이해하기 어려운 내용은 없다.
 음성합성 기술을 이해하기 위해서는 위에서 설명한 Speech chain중에서 음성을 생산하는 조음기관이 음성을 만들어내는 원리를 이해해야한다.

조음기관의 음성 생성원리


 이제 조음기관이 음성을 어떻게 만들어내는지 살펴보려고한다. 조음기관의 원리는 실습을 해보면 쉽게 이해 할 수 았다. 우선 모음 “아에이오우”를 순차적으로 발성해보면서 내 몸의 조음기관이 어디인지, 어떻게 움직이고 있는지 느껴보시라. 발성을 위해 움직이는 내 몸안의 신체기관들을 느껴보면 될것이다.
  먼저 “아”를 길게 발성한다. 그 상태에서 “에” 로 발성을 바꾸어 본다. 어떤 변화가 일어났는가? 입안의 모양과 혀의 위치가 변한다. “이” ->"오"->"우" 를 순차적으로 발성하며 구강의 모양과 혀의 위치, 입술의 움직임들을 살펴보자.
"아" 라는 소리를 만들때는 입을 크게 벌려야한다. 뇌에서 입을 크게 벌리라고 명령을 내리는 것이다. "에"라는 소리를 만들때에는 혀가 앞으로 이동한다. 혀의 움직임에 따라 소리가 달라지는 것이다.
폐에서 시작된 공기의 흐름이 우리가 알고 있는 발음으로 변한 것이다.
그럼 이제 한옥타브 높은 소리를 내보자. 입의 모양은 그대로인데 소리가 날카로운 소리로 변한다. 이것은 목구멍 안쪽의 성대가 많이 진동한 것이다. 성대가 많이 진동하면 소리의 주파수가 높아져 하이톤의 음성이 만들어지는 것이다. 이것을 피치라고 도 하는데 일반적으로 성인 남성은 85 ~155 Hz, 성인 여성은 165 ~ 255 Hz 의 주파수 특성을 가지고 있다.

실습을 했으니 이제 아래의 그림을 통해 조음기관을 단계별로 살펴보자. 폐에서 시작되는 공기의 흐름은 목구멍의 성대를 통과하며 음원(speech source 또는 sound source)이 된다. 성도(vocal cord)는 목구멍의 성대로부터 입술까지의 구강과 콧구멍까지의 비강을 의미한다. 성대를 통과한 음성은 성도의 모양에 따라, 입술의 위치와 모양에 따라 다양한 소리로 만들어진다.
때로는 마찰을 일으키기도 하는데 이것을 마찰음이라 한다. 대표적으로는 "ㅅ" 이 들어간 소리가 있다. "스"와 같은 소리를 내보면 바로 이해가 될것이다.
Speech production mechanism [3]

음소와 음성

음성합성 기술에서 합성음을 만들기 위한 기준이 되는 단위는 음소이다. 음소는 언어학적 관점에서 의미를 가지는 소리의 최소 단위이다. 쉽게 'ㄱ','ㄴ','ㄷ','ㄹ' 과 같은 자음과 모음을 말한다. 그런데 사실 은 같은 음소라 하더라도 소리가 다르다. 예를 들면, "학교" 라는 단어에서 "학"의 종성 'ㄱ'과 "교"의 초성 'ㄱ'은 소리가 다르다. 즉 음성학적 관점에서는 같은 음소지만 다른 소리를 가지게 된다.
  음성합성은 문자를 소리로 만들어 내는 기술이므로, 'ㄱ' 이라는 음소를 여러가지의 다른 'ㄱ'소리로 만들어 낼 수 있어야 한다. 따라서 음성합성에서는 음성학적 측면에서의 음소를 기준 단위로 사용하게 되는데 앞뒤에 따라오는 음소에 따라 소리가 달라지므로 앞뒤의 음소 조합을 고려하게 된다.

  이제 자음과 모음으로 구성된 음소를 음성학적 측면에서 살펴보자.

 앞에서 설명했지만 폐에서 나오는 공기의 흐름은 제일먼저 성대라는 곳을 통과한다. 성대는 작은 울림판이 있어 모음을 발성할때 진동하게 된다."아" 라는 소리를 한번 내보자. 목구멍의 떨림을 느낄 수 있을 것이다. 자음의 경우 성대가 진동하지 않는다. 대부분의 자음은 성대를 진동시키지 않는데 일부 자음은 성대를 진동시키기도 한다. 자음은 노이즈에 의해 만들어지는 소리이다. 소리를 방해하기위한 노이즈를 발생시켜 만들어지는 소리인 것이다. 성대가 진동하는 음성과 그렇지 않은 음성에 대하여 설명하였는데 이것은 유성음과 무성음을 설명하기 위한 것이다. 음성은 성대의 진동여부에 따라 무성음과 유성음으로 나눈다. 모든 모음은 발성할때 성대가 진동하므로 유성음이다. 대부분의 자음은 성대가 진동하지 않으므로 무성음에 해당하나 일부 자음 [ㄴ,ㄹ,ㅁ,ㅇ] 의 경우 성대가 진동한다. 따라서 유성자음이다.

유성자음중 [ㄴ,ㅁ,ㅇ] 을 비음이라 하고, [ㄹ]을 유음이라 한다. 그밖에 무성자음이 유성음화 되는 경우도 있다. "국물" 과 같은 단어인데, "궁물"로 발음된다. 즉, 종성 'ㄱ' 이 'ㅇ'으로 소리나서 유성음화 되는 것이다.

이러한 원리를 알면 소리를 만들어 낼 수 있다. 음성합성기를 만들려는 시도는 이와 같은 원리를 이용하는것 부터 출발하였다.

음성합성의 역사

최초의 음성합성기는 1791년 볼프강(Wolfgang von Kempelen)이 만들었다. seiner sprechenden Maschine 이라 하는데, 풀무같이 생긴 기계의 손잡이를 조작하여 비음, 구강음등을 낼 수 있도록 하였다. 단어나 문장을 만들어 내었다고 한다.




Wolfgang von Kempelen - seiner sprechenden Maschine



1846년에는 Joseph Faber 가 EUPHONIA 를 만들었는데 이 역시 조음기관을 모델링한 형태를 띄고 있다. 피아노같이 생긴 기계를 페달과 키보드와 같은 장치를 조작함으로서 여러 소리를 만들어낸다.


1939년에는 AT&T Bel Lab. - VODER 가 있었고(1년 정도 숙련해야 다룰 수 있었다고 한다), 1951년에는 The Pattern Playback이라는 것이 있었다.
이와같이 대부분의 오래전 음성합성의 시도는 인간의 조음기관을 흉내내 보려는 시도로부터 시작되었다.
 그러나 1960년대 이후에는 컴퓨터 기술이 발달하면서 컴퓨터를 이용한 음성합성 기술의 개발이 본격적으로 시작되었다. 조음기관 흉내를 위한 하드웨어를 개발하려는 시도에서 벗어나 조음기관을 통해 나오는 음성의 음향적 특성을 컴퓨터로 모델링하거나 음성을 직접 편집하여 이어 붙이는 등의 기술을 통해 음성합성 기술은 비약적으로 발전하게 된다.

- Ref. -
[1]Speech chain: L.R. Rabiner and R.W. Schafer, Digital Processing of Speech Signals, Prentice-Hall signal processing series, Upper Saddle River NJ, 1978.
[2] https://en.wikipedia.org/wiki/Wolfgang_von_Kempelen
[3] HTS Slides released by HTS Working Group - http://hts.sp.nitech.ac.jp/


글 - 셀바스AI 박태훈 (wayne.t.park@selvas.com  /https://brunch.co.kr/@oldamigo9)


Pages