# Synthèse du bench STT/TTS — index

> Synthèse éclatée en 4 fichiers (TTS/STT × stream/batch), format présentable avec **liens vers tous les audios**
> (prêts pour une page HTML d'écoute inline). Généré le 2026-06-24 par `/tmp/gen_synthese.py`. Détail des runs :
> fichiers `suite-*` / `stream-*` de ce dossier. Record narratif + décisions : `docs/plans/bench-stt-tts.md`.

## 🔊 TTS (texte → audio)
- **[SYNTHESE-TTS-stream.md](SYNTHESE-TTS-stream.md)** — **streaming temps réel (TTFA)** : Cartesia Sonic-3.5, Chirp 3 HD, Gemini Live, Kyutai. Tableaux + fiche par modèle (cloud→self-host) + **tous les audios** (voix/émotions/langues).
- **[SYNTHESE-TTS-batch.md](SYNTHESE-TTS-batch.md)** — **non-stream / chunké** : Gemini preview-tts, Voxtral TTS, Qwen3-TTS, Chatterbox, **Kokoro** (voix rejetée), XTTS (baseline).

## 🎙️ STT (audio → texte)
- **[SYNTHESE-STT-stream.md](SYNTHESE-STT-stream.md)** — **streaming (TTFT, réactivité)** : Voxtral-RT, Gemini, Whisper-turbo. Top-3 par langue.
- **[SYNTHESE-STT-batch.md](SYNTHESE-STT-batch.md)** — **batch (WER, qualité)** : Whisper large-v3/turbo, Voxtral cloud, Gemini.

## 🏆 En une ligne
- **TTS rapidité** : 🥇 Cartesia (176 ms, ⚠️ RGPD : pas d'EU, ZDR>20 k$) · 🥈 **Chirp 3 HD** (~680 ms, **seul EU réel, RGPD simple**) · self-host : Kyutai (offline, fr/en). **Qualité = à écouter.**
- **STT rapidité** : Whisper-turbo (offline, ~250 ms, couvre le turc) + Voxtral-RT (fr/en ~310 ms). **STT qualité** : Whisper large-v3 (WER macro 6,6 %).
- **Décision prod RGPD** : Chirp 3 HD (EU) **ou** self-host/on-device ; Cartesia cloud seulement en POC ou budget entreprise.

_Note : ces fichiers + les audios (`../tts_out/`) sont locaux (gitignorés). Pour générer la page HTML d'écoute inline, demander._
