コンテンツにスキップ

音声

確認済み実機・内容確認: 2026-06-07 対象バージョン: v0.16.0 #hermes#settings#voice#stt#tts

音声入力（STT）と読み上げ（TTS）を設定する。利用できるプロバイダーはこのビルドの画面定義に限定して記載する。

基本設定

画面表示（主）	内部キー（サブ）	製品既定値	推奨
音声合成プロバイダー	`tts.provider`	`edge`	無料利用は `edge`
音声認識	`stt.enabled`	オン	音声入力を使う場合オン
音声認識プロバイダー	`stt.provider`	`local`	プライバシー重視は `local`
応答を読み上げる	`voice.auto_tts`	オフ	通常オフ
音声ショートカット	`voice.record_key`	`ctrl+b`	他機能と競合しないキー
最大録音時間	`voice.max_recording_seconds`	`120` 秒	60～120秒

音声合成プロバイダー

画面表示（主）	保存値（内部）	既定	実行場所・特徴	必要なもの
Edge	`edge`	はい	Microsoft Edge TTS を使う。多数の言語・音声 ID がある	API キー不要。ネットワーク接続
Elevenlabs	`elevenlabs`	いいえ	ElevenLabs の音声と多言語モデルを使う	`ELEVENLABS_API_KEY`
Openai	`openai`	いいえ	OpenAI の TTS API、または互換エンドポイントを使う	`VOICE_TOOLS_OPENAI_KEY`
Neutts	`neutts`	いいえ	NeuTTS をローカル実行する。初回はモデル取得が発生し得る	`neutts[all]` の別途導入、ローカル計算資源

音声認識プロバイダー

画面表示（主）	保存値（内部）	既定	実行場所・特徴	必要なもの
Local	`local`	はい	`faster-whisper` をローカル実行。音声を外部 STT API へ送らない	初回モデル取得、ローカル CPU / GPU
Groq	`groq`	いいえ	Groq の Whisper 互換 API。低遅延を重視	`GROQ_API_KEY`。このキーは本画面ではなく環境設定側で管理される場合がある
Openai	`openai`	いいえ	OpenAI の Whisper / Transcribe API	`VOICE_TOOLS_OPENAI_KEY`
Xai	`xai`	いいえ	xAI の音声文字起こし。整形、対応言語、話者処理はサービス仕様に依存	xAI API キーまたは利用可能な xAI 認証
Elevenlabs	`elevenlabs`	いいえ	ElevenLabs Scribe を使い、言語指定、音声イベント、話者分離を設定可能	`ELEVENLABS_API_KEY`

TTS 詳細

画面表示（主）	内部キー（サブ）	製品既定値	入力・動作
Edge 音声	`tts.edge.voice`	`en-US-AriaNeural`	Edge TTS の音声 ID。日本語では `ja-JP-...Neural` 形式の対応 ID を指定
OpenAI TTS モデル	`tts.openai.model`	`gpt-4o-mini-tts`	接続先が対応するモデル
OpenAI 音声	`tts.openai.voice`	`alloy`	下記6プリセットから選択
ElevenLabs 音声	`tts.elevenlabs.voice_id`	`pNInz6obpgDQGcFmaJgB`	API 接続に成功するとアカウントの音声一覧から選択。候補はアカウント依存
ElevenLabs モデル	`tts.elevenlabs.model_id`	`eleven_multilingual_v2`	ElevenLabs のモデル ID。自由入力のため、利用可能なモデルを確認

OpenAI 音声の全候補

画面表示（主）	保存値（内部）	既定	目安
Alloy	`alloy`	はい	標準の中立的な音声
Echo	`echo`	いいえ	`echo` プリセットを使用
Fable	`fable`	いいえ	`fable` プリセットを使用
Onyx	`onyx`	いいえ	`onyx` プリセットを使用
Nova	`nova`	いいえ	`nova` プリセットを使用
Shimmer	`shimmer`	いいえ	`shimmer` プリセットを使用

音色の印象はモデルや API 側の更新で変わり得るため、名前から固定的な性別・声質を断定せず、実際に短文を読み上げて選ぶ。

STT 詳細

画面表示（主）	内部キー（サブ）	製品既定値	推奨
ローカル文字起こしモデル	`stt.local.model`	`base`	速度重視 `base`、精度重視 `small` 以上
文字起こし言語	`stt.local.language`	空欄（自動）	日本語固定が必要なら言語コード
ElevenLabs STT モデル	`stt.elevenlabs.model_id`	`scribe_v2`	`scribe_v2`
ElevenLabs 言語	`stt.elevenlabs.language_code`	空欄（自動）	必要時に ISO-639-3
音声イベントをタグ付け	`stt.elevenlabs.tag_audio_events`	オフ	会話分析時のみオン
話者分離	`stt.elevenlabs.diarize`	オフ	複数話者の録音時のみオン

ローカル文字起こしモデルの全候補

画面表示（主）	保存値（内部）	既定	相対的な速度・精度	用途
Tiny	`tiny`	いいえ	最速・最小、精度は低め	動作確認、低性能端末
Base	`base`	はい	高速で標準的	短い日常音声
Small	`small`	いいえ	中程度	日本語精度を少し上げたい場合
Medium	`medium`	いいえ	低速・高精度	精度優先、十分なメモリがある端末
Large-v3	`large-v3`	いいえ	最も重い・高精度	品質最優先、強い CPU / GPU

ElevenLabs STT モデルの全候補

画面表示（主）	保存値（内部）	既定	動作
Scribe V2	`scribe_v2`	はい	新しい Scribe 系モデル
Scribe V1	`scribe_v1`	いいえ	旧 Scribe モデル。互換性や比較が必要な場合

言語と追加解析

文字起こし言語: 空欄では faster-whisper が自動検出する。固定する場合は ja, en などの対応言語コードを入力する。
ElevenLabs 言語: 空欄では自動検出。固定時は ElevenLabs が受け付ける ISO-639-3 コードを使う。
音声イベントをタグ付けオン: 笑い声、拍手など、音声中の非発話イベントを文字起こしへ含める。
音声イベントをタグ付けオフ: 発話本文を中心に返す。
話者分離オン: 複数話者を識別した結果を要求する。処理量や出力複雑度が増える。
話者分離オフ: 話者を分けず単一の文字起こしとして扱う。

録音操作

音声認識オン: 受信・録音した音声を選択プロバイダーで自動文字起こしする。
音声認識オフ: 自動文字起こしを行わない。ゲートウェイでは音声ファイル自体が保持・参照される場合がある。
応答を読み上げるオン: アシスタントの応答を選択した TTS で自動再生する。
応答を読み上げるオフ: 必要なときだけ手動の音声機能を使う。
音声ショートカット: ctrl+b のようなキー表記。OS や他アプリのショートカットと競合しない値を使う。
最大録音時間: 1回の録音を停止するまでの上限秒数。長くするとファイルサイズと文字起こし時間が増える。

推奨構成

ローカル・無料重視: STT local + base、TTS edge、自動読み上げオフ。
日本語精度重視: STT の言語を固定し、必要に応じて small 以上。
会議録: ElevenLabs の話者分離を有効化し、送信先のデータ方針を確認。