KT가 국내 최초로 AI 스피커에 딥러닝 기반 ‘개인화 음성합성 기술 (P-TTS)’을 상용화하고, 첫 시작으로 기가지니에 P-TTS 기술을 적용한 ‘박명수를 이겨라’ 퀴즈 게임을 25일 출시한다.
P-TTS (Personalized-Text to Speech) 기술은 딥러닝 기술을 이용해 며칠간 수집한 음성 데이터만으로 특정 인물의 목소리를 합성해 낼 수 있다. 이 기술을 활용하면 단순히 문장을 발음하는 수준을 넘어 개인별 발화 패턴이나 억양까지 학습해 사람처럼 자연스럽게 말하는 것이 가능하다. AI 스피커에 P-TTS 기술을 상용화 한 것은 국내 최초다.
그동안 딥러닝 기술을 활용해 연예인 목소리로 음성을 합성해 선보인 사례는 있지만, 제한된 문장만을 합성할 수 있거나 음성 합성 후 데이터를 정제하는 후처리 과정이 필요하다는 한계가 있었다. 반면 KT의 P-TTS 기술은 어떤 문장이라도 합성해 낼 수 있고 문장당 1초 내로 합성이 가능하며 후처리 과정이 필요하지 않다.
KT는 개인화 음성합성 기술 개발에 맞춰 박명수 목소리를 적용한 ‘박명수를 이겨라’ 퀴즈 게임을 25일 출시한다. 기가지니에게 “지니야, 박명수를 이겨라”라고 말하면 박명수 목소리로 시사상식, 박명수 현실어록, 수도 맞추기, 19단 맞추기(인도 베다수학) 등 매일 새로운 퀴즈를 풀 수 있는 게임이다.
KT AI사업단장 김채희 상무는 “그동안 AI 스피커에서 특정 인물의 목소리로 음성을 듣고 싶다는 고객의 니즈를 반영해 기술을 상용화했다”며, “앞으로 기가지니의 목소리를 좋아하는 연예인의 음성으로 바꾸거나, 기가지니에게 동화책을 읽어 달라고 명령하면 부모의 목소리로 책을 읽어주는 서비스도 마련할 계획”이라고 말했다.
그동안 딥러닝 기술을 활용해 연예인 목소리로 음성을 합성해 선보인 사례는 있지만, 제한된 문장만을 합성할 수 있거나 음성 합성 후 데이터를 정제하는 후처리 과정이 필요하다는 한계가 있었다. 반면 KT의 P-TTS 기술은 어떤 문장이라도 합성해 낼 수 있고 문장당 1초 내로 합성이 가능하며 후처리 과정이 필요하지 않다.