(Cloud) Text To Speech API 비교하기

IT 기술 관련 음성을 텍스트로 변환하는 방법에 대해서 스터디를 하면서, CTTS API들을 비교해봤다.

비교해본 API 서비스는 크게 3가지이다.

비교 결과는 다음과 같다.

서비스	네이버	Amazon Transcribe	Google Cloud
음성 파일 전송 방식	바이너리 데이터를 API으로 전송한다.	S3에 저장된 파일을 전송한다.	바이너리 데이터를 API으로 전송하거나, 구글 스토리지에 저장된 경로를 전달한다.
음성 파일 크기	60초 이내	60초 이상 지원	60초 이상 지원
결과 인식	비동기 처리 지원 X ( API으로 즉시 응답을 받는다. )	비동기 처리 지원	비동기 처리 지원
화자인식	불가능하다	가능하다	가능하다 ( 베타 )
커스텀 단어 사전	불가능하다	가능하다	가능하다
감탄사	감탄사를 포함시킨다.	감탄사를 제외시킨다.	감탄사를 제외시킨다.
15초당 과금	4원 ( 분당 16원 )	7 원 ( 분당 28원 )	7원 ( 분당 28원 )

파이콘 발표 음성을 텍스트로 변환해보니, AWS Transcribe가 상대적으로 텍스트 변환을 잘했다.

그리고 의외로 네이버 클로바가 실용성이 떨어졌다.

AWS / Google에 비교했을 때, 부족했던 점은 다음과 같다.

- 외래어와 기술용어 변환에 약하다.

- 변환가능한 음성 길이가 1분으로 제한되어있어서, 사용성이 떨어진다.

- 비동기 방식을 지원하지 않고, 변환된 결과를 저장해두지 않는다.

- 구두점을 인식하지 못했다. 그래서 문장이 끝났다는걸 인식하기가 어려웠다.

<끝>

[passenger] 서버에 올라간 Rails Application 재시작하기 (0)	2017.04.22
신입 프로그래머에게 유용한 크롬 확장 프로그램 (0)	2016.08.21

복세편살