# Synthèse STT — BATCH (WER, qualité)

> STT = audio→texte : **pas d'audio généré**. Corpus d'ENTRÉE testé dans `bench/audio/` (Common Voice fr/en/es/pt/de/it/nl/ja/zh/tr). Métriques : TTFT (réactivité), WER (qualité).

> WER = % de mots faux (plus bas = mieux ; normalisé num2words).

## WER par langue — Whisper large-v3 (macro 6,6 %)

| Langue | WER % |
|---|---|
| Français | 7.8 |
| Anglais | 1.6 |
| Espagnol | 1.7 |
| Portugais | 2.6 |
| Allemand | 3.0 |
| Italien | 7.5 |
| Néerlandais | 1.9 |
| Japonais | 12.9 |
| Chinois | 20.7 |
| Turc | 6.3 |

*Whisper-turbo : macro 7,0 %. Voxtral cloud : fr 0,0 % (pas de turc). ja/zh durs (CER élevé).*

---
## Détail (cloud → self-host)

### Whisper large-v3  🖥️ self-host

Référence qualité : **WER macro 6,6 %** (fr 7,8 ; tr 6,3). 99 langues.

| Donnée | Valeur |
|---|---|
| Hébergement | **Self-host** (faster-whisper ; mlx-whisper Mac) |
| Type | batch |
| Licence | **MIT** |
| Params | ~1,55 B |
| Pic VRAM | ~4,2 Go |
| Disque | ~3 Go |
| Langues | **99 (turc ✓)** |
| WER macro | 6,6 % |
| Date | 2026-06-11 |


### Whisper large-v3-turbo  🖥️ self-host

WER macro **7,0 %**, VRAM 2,4 Go.

| Donnée | Valeur |
|---|---|
| Hébergement | Self-host |
| Type | batch |
| Licence | MIT |
| Params | ~0,8 B |
| Pic VRAM | ~2,4 Go |
| Disque | ~1,6 Go |
| Langues | 99 (turc ✓) |
| WER macro | 7,0 % |
| Date | 2026-06-11 |


### Voxtral STT  ☁️ cloud

Excellent (fr 0,0 %) mais **pas le turc**.

| Donnée | Valeur |
|---|---|
| Hébergement | Cloud Mistral |
| Type | batch |
| Licence | propr. |
| Langues | sans tr |
| WER fr | 0,0 % |
| Date | 2026-06-09 |


### Gemini STT  ☁️ cloud

Qualité top, toutes langues.

| Donnée | Valeur |
|---|---|
| Hébergement | Cloud Gemini |
| Type | batch |
| Licence | propr. |
| Langues | toutes (turc ✓) |
| Date | 2026-06-13 |


---

## ⚠️ Non testable sur GCP (L4) — à mesurer sur le **Mac mini M4 UNIQUEMENT**

Le bench ci-dessus tourne sur **L4 CUDA (faster-whisper, mode eager)** : utile pour comparer les modèles entre eux, mais **les chiffres ne transfèrent PAS à la cible de prod (Mac mini M4)**. À refaire sur le Mac :

- **Latence/RTF STT réels sur Apple Silicon** : `mlx-whisper` / `whisper.cpp` (Metal + Neural Engine) — techno et optimisation différentes du CUDA ; le TTFT/RTF live ne se valide que là.
- **Co-résidence en mémoire unifiée** : STT + LLM + TTS tournant **ensemble** dans la RAM unifiée du M4 (pic mémoire global, throughput partagé) — impossible à reproduire sur la VM L4.
- **Conso / thermique / Neural Engine** : comportement réel sur Apple Silicon (puissance, throttling).
- **Voxtral-realtime en self-host** : benché en **cloud** seulement (checkpoint Realtime non supporté par transformers pour un self-host CUDA) — la forme self-host/edge ne se valide que sur la cible.
- *(lié TTS)* **Cartesia Sonic On-Device** (Apple Silicon/MLX, private beta) : ne tourne **que** sur Mac — à demander + tester.

→ Bench **DÉCISIF** = Mac mini M4, cf. `docs/75-ops-scaleway-mac.md` / `docs/plans/bench-stt-tts.md`.