본문 바로가기

소프트웨어-이야기/소프트스킬

claudecode + whisper을 활용한 보이스 코딩 (aka. 입개발)

IT 스터디에서 화상 미팅을 통해 음성 기반 페어 프로그래밍을 진행해보기로 했다. 관련 자료를 조사해보자.

시작하며

해외 IT 커뮤니티에서 타이핑이 AI을 활용한 코드 구현에 제약을 준다는 의견들이 많이 보인다. 그러면서 wisprflow.ai 이 많이 언급되고 있다. 어떤 한 회사는 클로드코드 에이전트를 25개 띄워놓고, wisprflow.ai 으로 제어한다는 사례도 보였다. 

https://x.com/sxmawl/status/2012028001861685578?s=20

 

시연 

claudecode와 whisper을 사용하여, 프로젝트 설명과 기능 변경을 요청해봤다. 

진짜 코드도 잘 구현했다! 

 

기타 

설치 및 실행 

# 1. UV 패키지 매니저 설치
curl -LsSf https://astral.sh/uv/install.sh | sh

# 2. VoiceMode 설치
uvx voice-mode-install

# 3. 로컬 Whisper 설치 (무료, OpenAI 필요 없음 --> 이 케이스에서는 사실 실패해서, 유료 api 사용)
voicemode whisper install
voicemode whisper start

# 4. 로컬 TTS 설치 (Claude 음성 출력용, 선택사항)
voicemode kokoro install
voicemode kokoro start

# 5. Claude Code에 연결
claude mcp add --scope user voicemode -- uvx --refresh voice-mode



# 6. 음성 대화 시작!
export OPENAI_API_KEY=####
claude converse

 

터미널 마이크 권한 추가 

brew install sox

// 터미널에서 마이크를 사용하는 명령어를 실행하면, 마이크 권한 팝업이 뜬다.
rec test.wav trim 0 3

 

 

음성 연결 상태 확인

voicemode status
비정상 (1) 비정상 (2)