본문 바로가기

소프트웨어-이야기

(Cloud) Text To Speech API 비교하기

IT 기술 관련 음성을 텍스트로 변환하는 방법에 대해서 스터디를 하면서, CTTS API들을 비교해봤다.

 

비교해본 API 서비스는 크게 3가지이다.

1.네이버 클로바 - Clova Speech Recognition(CSR)

2.AWS - Amazon Transcribe

3.구글 클라우드 - Cloud Speech-to-Text

 

비교 결과는 다음과 같다.

서비스

네이버

Amazon Transcribe

Google Cloud

음성 파일 전송 방식

바이너리 데이터를 API으로 전송한다.

S3에 저장된 파일을 전송한다.

바이너리 데이터를 API으로 전송하거나,

구글 스토리지에 저장된 경로를 전달한다.

음성 파일 크기 

60초 이내

60초 이상 지원

60초 이상 지원

결과 인식

비동기 처리 지원 X

( API으로 즉시 응답을 받는다. )

비동기 처리 지원

비동기 처리 지원

화자인식

불가능하다

가능하다

가능하다 ( 베타 )

커스텀 단어 사전

불가능하다

가능하다

가능하다

감탄사

감탄사를 포함시킨다.

감탄사를 제외시킨다.

감탄사를 제외시킨다.

15초당 과금

4원 ( 분당 16원 )

7 원 ( 분당  28원 )

7원 ( 분당 28원 )

 

Speech To Text 변환 결과 분석

파이콘 발표 음성을 텍스트로 변환해보니, AWS Transcribe가 상대적으로 텍스트 변환을 잘했다. 

그리고 의외로 네이버 클로바가 실용성이 떨어졌다. 

AWS / Google에 비교했을 때, 부족했던 점은 다음과 같다. 

- 외래어와 기술용어 변환에 약하다.

- 변환가능한 음성 길이가 1분으로 제한되어있어서, 사용성이 떨어진다.

- 비동기 방식을 지원하지 않고, 변환된 결과를 저장해두지 않는다.

- 구두점을 인식하지 못했다. 그래서 문장이 끝났다는걸 인식하기가 어려웠다.

 

<끝>