# Synthèse STT — STREAMING (TTFT, réactivité)

> STT = audio→texte : **pas d'audio généré**. Corpus d'ENTRÉE testé dans `bench/audio/` (Common Voice fr/en/es/pt/de/it/nl/ja/zh/tr). Métriques : TTFT (réactivité), WER (qualité).

## Top-3 par langue (TTFT médian)

| Langue | 🥇 | 🥈 | 🥉 |
|---|---|---|---|
| Français | Voxtral-RT 312ms | Whisper-turbo 680ms | Gemini 1219ms |
| Anglais | Voxtral-RT 351ms | Whisper-turbo 1140ms | Gemini 1228ms |
| Espagnol | Whisper-turbo 250ms | Voxtral-RT 385ms | Gemini 3224ms |
| Portugais | Whisper-turbo 250ms | Voxtral-RT 333ms | Gemini 1335ms |
| Allemand | Whisper-turbo 263ms | Voxtral-RT 317ms | Gemini 1173ms |
| Italien | Whisper-turbo 242ms | Voxtral-RT 307ms | Gemini 1662ms |
| Néerlandais | Whisper-turbo 243ms | Voxtral-RT 343ms | Gemini 1994ms |
| Japonais | Whisper-turbo 247ms | Voxtral-RT 467ms | Gemini 1713ms |
| Chinois | Whisper-turbo 260ms | Voxtral-RT 300ms | Gemini 1089ms |
| Turc | Whisper-turbo 256ms | Gemini 1334ms | — |

*\*fr/en Whisper-turbo = outliers 1er appel (compute réel ~250 ms). Voxtral-RT ✗ turc.*

---
## Détail (cloud → self-host)

### Voxtral-realtime  ☁️ cloud

🥇 fr/en (~312/351 ms). WebSocket natif. **Pas le turc.**

| Donnée | Valeur |
|---|---|
| Hébergement | Cloud Mistral |
| Streaming | WebSocket natif |
| Licence | Apache-2.0 (cloud) |
| Langues | sans tr |
| TTFT médian | 333 ms |
| Date | 2026-06-13 |


### Gemini STT  ☁️ cloud

Toutes langues (turc inclus), lent (~1,3 s).

| Donnée | Valeur |
|---|---|
| Hébergement | Cloud Gemini |
| Streaming | SSE natif |
| Licence | propr. |
| Langues | toutes (turc ✓) |
| TTFT médian | 1334 ms |
| Date | 2026-06-13 |


### Whisper large-v3-turbo  🖥️ self-host

Socle offline : ~250 ms compute, **couvre le turc**. Chunké client.

| Donnée | Valeur |
|---|---|
| Hébergement | **Self-host** (faster-whisper ; mlx-whisper Mac) |
| Streaming | chunké |
| Licence | **MIT** |
| Params | ~0,8 B |
| Pic VRAM | ~2,4 Go |
| Disque | ~1,6 Go |
| Langues | **99 (turc ✓)** |
| TTFT | ~250 ms compute / ~1 s live |
| Date | 2026-06-13 |


---

## ⚠️ Non testable sur GCP (L4) — à mesurer sur le **Mac mini M4 UNIQUEMENT**

Le bench ci-dessus tourne sur **L4 CUDA (faster-whisper, mode eager)** : utile pour comparer les modèles entre eux, mais **les chiffres ne transfèrent PAS à la cible de prod (Mac mini M4)**. À refaire sur le Mac :

- **Latence/RTF STT réels sur Apple Silicon** : `mlx-whisper` / `whisper.cpp` (Metal + Neural Engine) — techno et optimisation différentes du CUDA ; le TTFT/RTF live ne se valide que là.
- **Co-résidence en mémoire unifiée** : STT + LLM + TTS tournant **ensemble** dans la RAM unifiée du M4 (pic mémoire global, throughput partagé) — impossible à reproduire sur la VM L4.
- **Conso / thermique / Neural Engine** : comportement réel sur Apple Silicon (puissance, throttling).
- **Voxtral-realtime en self-host** : benché en **cloud** seulement (checkpoint Realtime non supporté par transformers pour un self-host CUDA) — la forme self-host/edge ne se valide que sur la cible.
- *(lié TTS)* **Cartesia Sonic On-Device** (Apple Silicon/MLX, private beta) : ne tourne **que** sur Mac — à demander + tester.

→ Bench **DÉCISIF** = Mac mini M4, cf. `docs/75-ops-scaleway-mac.md` / `docs/plans/bench-stt-tts.md`.