IT 기술 관련 음성을 텍스트로 변환하는 방법에 대해서 스터디를 하면서, CTTS API들을 비교해봤다.
비교해본 API 서비스는 크게 3가지이다.
1.네이버 클로바 - Clova Speech Recognition(CSR)
2.AWS - Amazon Transcribe
3.구글 클라우드 - Cloud Speech-to-Text
비교 결과는 다음과 같다.
서비스 |
네이버 |
Amazon Transcribe |
Google Cloud |
음성 파일 전송 방식 |
바이너리 데이터를 API으로 전송한다. |
S3에 저장된 파일을 전송한다. |
바이너리 데이터를 API으로 전송하거나, 구글 스토리지에 저장된 경로를 전달한다. |
음성 파일 크기 |
60초 이내 |
60초 이상 지원 |
60초 이상 지원 |
결과 인식 |
비동기 처리 지원 X ( API으로 즉시 응답을 받는다. ) |
비동기 처리 지원 |
비동기 처리 지원 |
화자인식 |
불가능하다 |
가능하다 |
가능하다 ( 베타 ) |
커스텀 단어 사전 |
불가능하다 |
가능하다 |
가능하다 |
감탄사 |
감탄사를 포함시킨다. |
감탄사를 제외시킨다. |
감탄사를 제외시킨다. |
15초당 과금 |
4원 ( 분당 16원 ) |
7 원 ( 분당 28원 ) |
7원 ( 분당 28원 ) |
Speech To Text 변환 결과 분석
파이콘 발표 음성을 텍스트로 변환해보니, AWS Transcribe가 상대적으로 텍스트 변환을 잘했다.
그리고 의외로 네이버 클로바가 실용성이 떨어졌다.
AWS / Google에 비교했을 때, 부족했던 점은 다음과 같다.
- 외래어와 기술용어 변환에 약하다.
- 변환가능한 음성 길이가 1분으로 제한되어있어서, 사용성이 떨어진다.
- 비동기 방식을 지원하지 않고, 변환된 결과를 저장해두지 않는다.
- 구두점을 인식하지 못했다. 그래서 문장이 끝났다는걸 인식하기가 어려웠다.
<끝>
'소프트웨어-이야기' 카테고리의 다른 글
[passenger] 서버에 올라간 Rails Application 재시작하기 (0) | 2017.04.22 |
---|---|
신입 프로그래머에게 유용한 크롬 확장 프로그램 (0) | 2016.08.21 |