音声
音声入力(STT)と読み上げ(TTS)を設定する。利用できるプロバイダーはこのビルドの画面定義に限定して記載する。

| 画面表示(主) | 内部キー(サブ) | 製品既定値 | 推奨 |
|---|---|---|---|
| 音声合成プロバイダー | tts.provider | edge | 無料利用は edge |
| 音声認識 | stt.enabled | オン | 音声入力を使う場合オン |
| 音声認識プロバイダー | stt.provider | local | プライバシー重視は local |
| 応答を読み上げる | voice.auto_tts | オフ | 通常オフ |
| 音声ショートカット | voice.record_key | ctrl+b | 他機能と競合しないキー |
| 最大録音時間 | voice.max_recording_seconds | 120 秒 | 60~120秒 |
音声合成プロバイダー
Section titled “音声合成プロバイダー”| 画面表示(主) | 保存値(内部) | 既定 | 実行場所・特徴 | 必要なもの |
|---|---|---|---|---|
| Edge | edge | はい | Microsoft Edge TTS を使う。多数の言語・音声 ID がある | API キー不要。ネットワーク接続 |
| Elevenlabs | elevenlabs | いいえ | ElevenLabs の音声と多言語モデルを使う | ELEVENLABS_API_KEY |
| Openai | openai | いいえ | OpenAI の TTS API、または互換エンドポイントを使う | VOICE_TOOLS_OPENAI_KEY |
| Neutts | neutts | いいえ | NeuTTS をローカル実行する。初回はモデル取得が発生し得る | neutts[all] の別途導入、ローカル計算資源 |
音声認識プロバイダー
Section titled “音声認識プロバイダー”| 画面表示(主) | 保存値(内部) | 既定 | 実行場所・特徴 | 必要なもの |
|---|---|---|---|---|
| Local | local | はい | faster-whisper をローカル実行。音声を外部 STT API へ送らない | 初回モデル取得、ローカル CPU / GPU |
| Groq | groq | いいえ | Groq の Whisper 互換 API。低遅延を重視 | GROQ_API_KEY。このキーは本画面ではなく環境設定側で管理される場合がある |
| Openai | openai | いいえ | OpenAI の Whisper / Transcribe API | VOICE_TOOLS_OPENAI_KEY |
| Xai | xai | いいえ | xAI の音声文字起こし。整形、対応言語、話者処理はサービス仕様に依存 | xAI API キーまたは利用可能な xAI 認証 |
| Elevenlabs | elevenlabs | いいえ | ElevenLabs Scribe を使い、言語指定、音声イベント、話者分離を設定可能 | ELEVENLABS_API_KEY |
TTS 詳細
Section titled “TTS 詳細”| 画面表示(主) | 内部キー(サブ) | 製品既定値 | 入力・動作 |
|---|---|---|---|
| Edge 音声 | tts.edge.voice | en-US-AriaNeural | Edge TTS の音声 ID。日本語では ja-JP-...Neural 形式の対応 ID を指定 |
| OpenAI TTS モデル | tts.openai.model | gpt-4o-mini-tts | 接続先が対応するモデル |
| OpenAI 音声 | tts.openai.voice | alloy | 下記6プリセットから選択 |
| ElevenLabs 音声 | tts.elevenlabs.voice_id | pNInz6obpgDQGcFmaJgB | API 接続に成功するとアカウントの音声一覧から選択。候補はアカウント依存 |
| ElevenLabs モデル | tts.elevenlabs.model_id | eleven_multilingual_v2 | ElevenLabs のモデル ID。自由入力のため、利用可能なモデルを確認 |
OpenAI 音声の全候補
Section titled “OpenAI 音声の全候補”| 画面表示(主) | 保存値(内部) | 既定 | 目安 |
|---|---|---|---|
| Alloy | alloy | はい | 標準の中立的な音声 |
| Echo | echo | いいえ | echo プリセットを使用 |
| Fable | fable | いいえ | fable プリセットを使用 |
| Onyx | onyx | いいえ | onyx プリセットを使用 |
| Nova | nova | いいえ | nova プリセットを使用 |
| Shimmer | shimmer | いいえ | shimmer プリセットを使用 |
音色の印象はモデルや API 側の更新で変わり得るため、名前から固定的な性別・声質を断定せず、実際に短文を読み上げて選ぶ。
STT 詳細
Section titled “STT 詳細”| 画面表示(主) | 内部キー(サブ) | 製品既定値 | 推奨 |
|---|---|---|---|
| ローカル文字起こしモデル | stt.local.model | base | 速度重視 base、精度重視 small 以上 |
| 文字起こし言語 | stt.local.language | 空欄(自動) | 日本語固定が必要なら言語コード |
| ElevenLabs STT モデル | stt.elevenlabs.model_id | scribe_v2 | scribe_v2 |
| ElevenLabs 言語 | stt.elevenlabs.language_code | 空欄(自動) | 必要時に ISO-639-3 |
| 音声イベントをタグ付け | stt.elevenlabs.tag_audio_events | オフ | 会話分析時のみオン |
| 話者分離 | stt.elevenlabs.diarize | オフ | 複数話者の録音時のみオン |
ローカル文字起こしモデルの全候補
Section titled “ローカル文字起こしモデルの全候補”| 画面表示(主) | 保存値(内部) | 既定 | 相対的な速度・精度 | 用途 |
|---|---|---|---|---|
| Tiny | tiny | いいえ | 最速・最小、精度は低め | 動作確認、低性能端末 |
| Base | base | はい | 高速で標準的 | 短い日常音声 |
| Small | small | いいえ | 中程度 | 日本語精度を少し上げたい場合 |
| Medium | medium | いいえ | 低速・高精度 | 精度優先、十分なメモリがある端末 |
| Large-v3 | large-v3 | いいえ | 最も重い・高精度 | 品質最優先、強い CPU / GPU |
ElevenLabs STT モデルの全候補
Section titled “ElevenLabs STT モデルの全候補”| 画面表示(主) | 保存値(内部) | 既定 | 動作 |
|---|---|---|---|
| Scribe V2 | scribe_v2 | はい | 新しい Scribe 系モデル |
| Scribe V1 | scribe_v1 | いいえ | 旧 Scribe モデル。互換性や比較が必要な場合 |
言語と追加解析
Section titled “言語と追加解析”- 文字起こし言語: 空欄では
faster-whisperが自動検出する。固定する場合はja,enなどの対応言語コードを入力する。 - ElevenLabs 言語: 空欄では自動検出。固定時は ElevenLabs が受け付ける ISO-639-3 コードを使う。
- 音声イベントをタグ付け オン: 笑い声、拍手など、音声中の非発話イベントを文字起こしへ含める。
- 音声イベントをタグ付け オフ: 発話本文を中心に返す。
- 話者分離 オン: 複数話者を識別した結果を要求する。処理量や出力複雑度が増える。
- 話者分離 オフ: 話者を分けず単一の文字起こしとして扱う。
- 音声認識 オン: 受信・録音した音声を選択プロバイダーで自動文字起こしする。
- 音声認識 オフ: 自動文字起こしを行わない。ゲートウェイでは音声ファイル自体が保持・参照される場合がある。
- 応答を読み上げる オン: アシスタントの応答を選択した TTS で自動再生する。
- 応答を読み上げる オフ: 必要なときだけ手動の音声機能を使う。
- 音声ショートカット:
ctrl+bのようなキー表記。OS や他アプリのショートカットと競合しない値を使う。 - 最大録音時間: 1回の録音を停止するまでの上限秒数。長くするとファイルサイズと文字起こし時間が増える。
- ローカル・無料重視: STT
local+base、TTSedge、自動読み上げオフ。 - 日本語精度重視: STT の言語を固定し、必要に応じて
small以上。 - 会議録: ElevenLabs の話者分離を有効化し、送信先のデータ方針を確認。