コンテンツにスキップ

音声

音声入力(STT)と読み上げ(TTS)を設定する。利用できるプロバイダーはこのビルドの画面定義に限定して記載する。

画面表示(主)内部キー(サブ)製品既定値推奨
音声合成プロバイダーtts.provideredge無料利用は edge
音声認識stt.enabledオン音声入力を使う場合オン
音声認識プロバイダーstt.providerlocalプライバシー重視は local
応答を読み上げるvoice.auto_ttsオフ通常オフ
音声ショートカットvoice.record_keyctrl+b他機能と競合しないキー
最大録音時間voice.max_recording_seconds12060~120秒
画面表示(主)保存値(内部)既定実行場所・特徴必要なもの
EdgeedgeはいMicrosoft Edge TTS を使う。多数の言語・音声 ID があるAPI キー不要。ネットワーク接続
ElevenlabselevenlabsいいえElevenLabs の音声と多言語モデルを使うELEVENLABS_API_KEY
OpenaiopenaiいいえOpenAI の TTS API、または互換エンドポイントを使うVOICE_TOOLS_OPENAI_KEY
NeuttsneuttsいいえNeuTTS をローカル実行する。初回はモデル取得が発生し得るneutts[all] の別途導入、ローカル計算資源
画面表示(主)保存値(内部)既定実行場所・特徴必要なもの
Locallocalはいfaster-whisper をローカル実行。音声を外部 STT API へ送らない初回モデル取得、ローカル CPU / GPU
GroqgroqいいえGroq の Whisper 互換 API。低遅延を重視GROQ_API_KEY。このキーは本画面ではなく環境設定側で管理される場合がある
OpenaiopenaiいいえOpenAI の Whisper / Transcribe APIVOICE_TOOLS_OPENAI_KEY
XaixaiいいえxAI の音声文字起こし。整形、対応言語、話者処理はサービス仕様に依存xAI API キーまたは利用可能な xAI 認証
ElevenlabselevenlabsいいえElevenLabs Scribe を使い、言語指定、音声イベント、話者分離を設定可能ELEVENLABS_API_KEY
画面表示(主)内部キー(サブ)製品既定値入力・動作
Edge 音声tts.edge.voiceen-US-AriaNeuralEdge TTS の音声 ID。日本語では ja-JP-...Neural 形式の対応 ID を指定
OpenAI TTS モデルtts.openai.modelgpt-4o-mini-tts接続先が対応するモデル
OpenAI 音声tts.openai.voicealloy下記6プリセットから選択
ElevenLabs 音声tts.elevenlabs.voice_idpNInz6obpgDQGcFmaJgBAPI 接続に成功するとアカウントの音声一覧から選択。候補はアカウント依存
ElevenLabs モデルtts.elevenlabs.model_ideleven_multilingual_v2ElevenLabs のモデル ID。自由入力のため、利用可能なモデルを確認
画面表示(主)保存値(内部)既定目安
Alloyalloyはい標準の中立的な音声
Echoechoいいえecho プリセットを使用
Fablefableいいえfable プリセットを使用
Onyxonyxいいえonyx プリセットを使用
Novanovaいいえnova プリセットを使用
Shimmershimmerいいえshimmer プリセットを使用

音色の印象はモデルや API 側の更新で変わり得るため、名前から固定的な性別・声質を断定せず、実際に短文を読み上げて選ぶ。

画面表示(主)内部キー(サブ)製品既定値推奨
ローカル文字起こしモデルstt.local.modelbase速度重視 base、精度重視 small 以上
文字起こし言語stt.local.language空欄(自動)日本語固定が必要なら言語コード
ElevenLabs STT モデルstt.elevenlabs.model_idscribe_v2scribe_v2
ElevenLabs 言語stt.elevenlabs.language_code空欄(自動)必要時に ISO-639-3
音声イベントをタグ付けstt.elevenlabs.tag_audio_eventsオフ会話分析時のみオン
話者分離stt.elevenlabs.diarizeオフ複数話者の録音時のみオン

ローカル文字起こしモデルの全候補

Section titled “ローカル文字起こしモデルの全候補”
画面表示(主)保存値(内部)既定相対的な速度・精度用途
Tinytinyいいえ最速・最小、精度は低め動作確認、低性能端末
Basebaseはい高速で標準的短い日常音声
Smallsmallいいえ中程度日本語精度を少し上げたい場合
Mediummediumいいえ低速・高精度精度優先、十分なメモリがある端末
Large-v3large-v3いいえ最も重い・高精度品質最優先、強い CPU / GPU
画面表示(主)保存値(内部)既定動作
Scribe V2scribe_v2はい新しい Scribe 系モデル
Scribe V1scribe_v1いいえ旧 Scribe モデル。互換性や比較が必要な場合
  • 文字起こし言語: 空欄では faster-whisper が自動検出する。固定する場合は ja, en などの対応言語コードを入力する。
  • ElevenLabs 言語: 空欄では自動検出。固定時は ElevenLabs が受け付ける ISO-639-3 コードを使う。
  • 音声イベントをタグ付け オン: 笑い声、拍手など、音声中の非発話イベントを文字起こしへ含める。
  • 音声イベントをタグ付け オフ: 発話本文を中心に返す。
  • 話者分離 オン: 複数話者を識別した結果を要求する。処理量や出力複雑度が増える。
  • 話者分離 オフ: 話者を分けず単一の文字起こしとして扱う。
  • 音声認識 オン: 受信・録音した音声を選択プロバイダーで自動文字起こしする。
  • 音声認識 オフ: 自動文字起こしを行わない。ゲートウェイでは音声ファイル自体が保持・参照される場合がある。
  • 応答を読み上げる オン: アシスタントの応答を選択した TTS で自動再生する。
  • 応答を読み上げる オフ: 必要なときだけ手動の音声機能を使う。
  • 音声ショートカット: ctrl+b のようなキー表記。OS や他アプリのショートカットと競合しない値を使う。
  • 最大録音時間: 1回の録音を停止するまでの上限秒数。長くするとファイルサイズと文字起こし時間が増える。
  • ローカル・無料重視: STT local + base、TTS edge、自動読み上げオフ。
  • 日本語精度重視: STT の言語を固定し、必要に応じて small 以上。
  • 会議録: ElevenLabs の話者分離を有効化し、送信先のデータ方針を確認。