Anthropicは2026年3月3日、開発者向けCLIツール「Claude Code」にネイティブの音声モード(Voice Mode)を追加した。ターミナル上でスペースキーを押しながら話すだけで、コーディング指示を音声入力できる。
使い方
Claude Code のプロンプトで /voice と入力すると音声モードが有効になる。操作はプッシュ・トゥ・トーク方式で、常時マイクがオンになるわけではない。
/voiceで音声モードをON/OFF切り替え- スペースキーを押し続けて発話
- スペースキーを離すと文字起こしが実行され、テキストとしてプロンプトに入力される
ウェイクワードや常時リスニングはなく、マイクが有効になるタイミングを開発者自身が完全にコントロールする設計になっている。
テキストと音声のハイブリッド入力
音声モードの特徴的な機能として、1つのプロンプト内でタイピングと音声を自由に混在できる点がある。
[タイプ]: "Refactor the auth middleware in src/middleware/auth.ts to "
[音声]: "handle edge cases with expired JWT tokens while refresh tokens..."
[タイプ]: " -- keep existing error codes"
ファイルパスやコマンドなど正確さが求められる部分はキーボードで、ロジックの説明や意図の伝達は音声で、という使い分けが可能になる。
想定される活用シーン
- ラピッドプロトタイピング: アプローチを考えながら口頭で指示を出す
- バグ報告: 観察した挙動・試した対処・仮説をまとめて一息に伝える
- コードレビュー: ファイルパスはタイプし、フィードバックは音声で述べる
- アクセシビリティ: タイピングの物理的負担を軽減
人間の発話速度(約150wpm)はタイピング速度(約40wpm)の約3.7倍。入力がボトルネックになるタスクでは、音声入力により大幅な効率化が期待される。
提供状況
- 対象プラン: Pro / Max / Team / Enterprise
- 展開状況: 3月3日時点で約5%のユーザーに展開中。今後数週間で全対象ユーザーに拡大予定
- 言語: 英語(初期リリース)
- 文字起こしトークン: 利用量クォータにはカウントされない
音声認識に使用されているモデルについて、Anthropicは公表していない。
コミュニティによる先行実装
Anthropic公式の音声モード以前から、コミュニティではMCP(Model Context Protocol)を活用した音声機能の実装が進んでいた。「VoiceMode」はその代表例で、Claude Codeに音声会話機能を追加するMCPサーバーとして提供されている。
Claude モバイル・Web版の音声モードとの違い
2025年5月にリリースされたClaudeアプリの音声モードは、ElevenLabsの音声合成技術を使った双方向の音声会話機能で、5種類の音声(Buttery / Airy / Mellow / Glassy / Rounded)から選択できる。一方、Claude Codeの音声モードは音声入力(Speech-to-Text)に特化しており、Claudeの応答はテキストで表示される。ターミナル環境に最適化された設計といえる。
この記事は Claude Code により自動収集・生成されました。
