🔊 Bench TTS — BATCH / non-stream (écoute) ⚠️ La latence classe la réactivité, pas le rendu — c'est l'oreille qui tranche la qualité/l'accent. Sorties whole-call / chunké (non temps réel) — inclut Kokoro (voix rejetée, gardé pour mémoire) et les phrases dures Cartesia. Clique un chip pour écouter (lecteur en bas). Sections fermées par défaut. Généré le 2026-06-24.
↔ voir la page STREAMING ↔ STT
Cartesia Sonic-3.5 (REST + multi-voix)
Chirp 3 HD (REST + multi-voix)
Gemini TTS preview-tts
Voxtral TTS (Mistral)
Qwen3-TTS 1.7B
Chatterbox Multilingual 0.5B
Kokoro 82M
⚠️ Mac only
Cartesia Sonic-3.5 (REST + multi-voix) ☁️ cloud 61 extraits Sorties whole-call : nombreuses voix FR (Laurent/Inès/Pauline…) avec émotions ET phrases dures (num/marques/noms/codes), + voix natives par langue.
Français + Anglais · 34 extraits
Français
🎙️ FrenchNarratorLady neutre ▶ # chiffres ▶ 👤 noms ▶ 🔡 codes ▶
🎙️ Ines PoisedCommunicator neutre ▶ 😠 colère ▶ 🤩 enthousiaste ▶ 😢 triste ▶ 😊 gaie ▶ # chiffres ▶ ™ marques ▶ 👤 noms ▶ 🔡 codes ▶
🎙️ Laurent DependableAnchor neutre ▶ 😠 colère ▶ 🤩 enthousiaste ▶ 😢 triste ▶ 😊 gaie ▶ # chiffres ▶ ™ marques ▶ 👤 noms ▶ 🔡 codes ▶
🎙️ Mathieu AssuredExpert neutre ▶ # chiffres ▶ 👤 noms ▶ 🔡 codes ▶
🎙️ Pauline HelpfulCompanion neutre ▶ # chiffres ▶ 👤 noms ▶ 🔡 codes ▶
Anglais
🎙️ Gemma DecisiveAgent GB neutre ▶
🎙️ George ComposedConsultant GB neutre ▶
🎙️ Skylar FriendlyGuide US neutre ▶
🎙️ Theo ModernNarrator US neutre ▶
Monde · 8 langues · 27 extraits
Espagnol : 🎙️ Andres TrustedVoice MX neutre ▶ 🎙️ Daniela RelaxedWoman MX neutre ▶ 🎙️ Marcos SteadyAdvisor ES neutre ▶ 🎙️ Mariana NurturingGuide CO neutre ▶ 🎙️ Nuria TrustedAdvisor ES neutre ▶
Portugais : 🎙️ Beatriz SupportGuide PT neutre ▶ 🎙️ Bruno ReliableComm BR neutre ▶ 🎙️ Isabella WarmStory BR neutre ▶ 🎙️ Tiago NarrationExpert PT neutre ▶
Allemand : 🎙️ Henrik SteadyAnalyst neutre ▶ 🎙️ Marlene ElegantSpeaker neutre ▶ 🎙️ Sebastian Orator neutre ▶
Italien : 🎙️ Alessandra MelodicGuide neutre ▶ 🎙️ Francesca ElegantPartner neutre ▶ 🎙️ Lorenzo HospitableHost neutre ▶
Néerlandais : 🎙️ Jeroen ClearStory NL neutre ▶ 🎙️ Lucas Storyteller NL neutre ▶ 🎙️ Sanne ClearCompanion NL neutre ▶
Japonais : 🎙️ Hinata GracefulGuide JP neutre ▶ 🎙️ Kenji CalmMan JP neutre ▶ 🎙️ Yuki CalmWoman JP neutre ▶
Chinois : 🎙️ Hao FriendlyGuy neutre ▶ 🎙️ Jing ClearCoordinator neutre ▶ 🎙️ Tao Lecturer neutre ▶
Turc : 🎙️ Aylin WarmGuide TR neutre ▶ 🎙️ Leyla StoryCompanion TR neutre ▶ 🎙️ Taylan ExpressiveVoice TR neutre ▶
Chirp 3 HD (REST + multi-voix) ☁️ cloud 91 extraits Sorties whole-call : voix par locale + émotions/dures FR. Résidence EU dispo.
Français + Anglais · 69 extraits
Français
🎙️ Achernar neutre ▶ 😠 colère ▶ 🤩 enthousiaste ▶ 😢 triste ▶ 😊 gaie ▶ # chiffres ▶ ™ marques ▶ 👤 noms ▶ 🔡 codes ▶
🎙️ Achird neutre ▶ 😠 colère ▶ 🤩 enthousiaste ▶ 😢 triste ▶ 😊 gaie ▶ # chiffres ▶ ™ marques ▶ 👤 noms ▶ 🔡 codes ▶
🎙️ Aoede neutre ▶ neutre (2) ▶ 🤩 enthousiaste ▶ # chiffres ▶ # chiffres (2) ▶ 👤 noms ▶ 👤 noms (2) ▶ 🔡 codes ▶ 🔡 codes (2) ▶
🎙️ Charon neutre ▶ neutre (2) ▶ 🤩 enthousiaste ▶ # chiffres ▶ # chiffres (2) ▶ 👤 noms ▶ 👤 noms (2) ▶ 🔡 codes ▶ 🔡 codes (2) ▶
🎙️ Fenrir neutre ▶ 🤩 enthousiaste ▶ # chiffres ▶ 👤 noms ▶ 🔡 codes ▶
🎙️ Kore neutre ▶ neutre (2) ▶ 🤩 enthousiaste ▶ # chiffres ▶ # chiffres (2) ▶ 👤 noms ▶ 👤 noms (2) ▶ 🔡 codes ▶ 🔡 codes (2) ▶
🎙️ Leda neutre ▶ 🤩 enthousiaste ▶ # chiffres ▶ 👤 noms ▶ 🔡 codes ▶
🎙️ Puck neutre ▶ 🤩 enthousiaste ▶ # chiffres ▶ 👤 noms ▶ 🔡 codes ▶
Anglais
🎙️ Achernar neutre ▶ # chiffres ▶ ™ marques ▶ 👤 noms ▶ 🔡 codes ▶
🎙️ Aoede neutre ▶
🎙️ Charon neutre ▶
🎙️ Kore neutre ▶
🎙️ Puck neutre ▶
Monde · 8 langues · 22 extraits
Espagnol : 🎙️ Aoede neutre ▶ 🎙️ Charon neutre ▶ 🎙️ Kore neutre ▶ 🎙️ Puck neutre ▶
Portugais : 🎙️ Aoede neutre ▶ 🎙️ Charon neutre ▶ 🎙️ Kore neutre ▶
Allemand : 🎙️ Aoede neutre ▶ 🎙️ Charon neutre ▶ 🎙️ Kore neutre ▶
Italien : 🎙️ Aoede neutre ▶ 🎙️ Charon neutre ▶ 🎙️ Puck neutre ▶
Néerlandais : 🎙️ Charon neutre ▶ 🎙️ Kore neutre ▶
Japonais : 🎙️ Aoede neutre ▶ 🎙️ Charon neutre ▶ 🎙️ Kore neutre ▶
Chinois : 🎙️ Aoede neutre ▶ 🎙️ Charon neutre ▶
Turc : 🎙️ Charon neutre ▶ 🎙️ Kore neutre ▶
Gemini TTS preview-tts ☁️ cloud · bufferisé 26 extraits Qualité TOP mais NE STREAME PAS (TTFA ~4 s, 1 bloc). Éliminé pour le temps réel ; gardé comme référence qualité.
Français + Anglais · 18 extraits
Français
🎙️ Kore neutre ▶ neutre (2) ▶ 😠 colère ▶ 🤩 enthousiaste ▶ 😢 triste ▶ 😊 gaie ▶ # chiffres ▶ ™ marques ▶ 👤 noms ▶ 🔡 codes ▶
Anglais
🎙️ Kore neutre ▶ 😠 colère ▶ 🤩 enthousiaste ▶ 😢 triste ▶ 😊 gaie ▶ # chiffres ▶ ™ marques ▶ 🔡 codes ▶
Monde · 8 langues · 8 extraits
Espagnol : 🎙️ Kore neutre ▶
Portugais : 🎙️ Kore neutre ▶
Allemand : 🎙️ Kore neutre ▶
Italien : 🎙️ Kore neutre ▶
Néerlandais : 🎙️ Kore neutre ▶
Japonais : 🎙️ Kore neutre ▶
Chinois : 🎙️ Kore neutre ▶
Turc : 🎙️ Kore neutre ▶
Voxtral TTS (Mistral) ☁️ cloud 34 extraits ANGLAIS uniquement, voix à émotion. TTFA ~1172 ms. Écarté (pas de FR/multilingue).
Français + Anglais · 34 extraits
Anglais
🎙️ default neutre ▶ neutre ▶ 😠 colère ▶ 😠 colère ▶ 😠 colère (2) ▶ 😠 colère (2) ▶ 🤩 enthousiaste ▶ 🤩 enthousiaste ▶ 😢 triste ▶ 😢 triste ▶ 😊 gaie ▶ 😊 gaie ▶ # chiffres ▶ # chiffres ▶ ™ marques ▶ ™ marques ▶ 👤 noms ▶ 👤 noms ▶ 🔡 codes ▶ 🔡 codes ▶
🎙️ en_paul_angry 😠 colère ▶ 😠 colère ▶
🎙️ en_paul_cheerful 😊 gaie ▶ 😊 gaie ▶
🎙️ en_paul_excited 🤩 enthousiaste ▶ 🤩 enthousiaste ▶ 😊 gaie ▶ 😊 gaie ▶
🎙️ en_paul_happy 😊 gaie ▶ 😊 gaie ▶ 😊 gaie (2) ▶ 😊 gaie (2) ▶
🎙️ en_paul_sad 😢 triste ▶ 😢 triste ▶
Qwen3-TTS 1.7B 🖥️ self-host · chunké 24 extraits ✅ OFFLINE, Apache-2.0. Émotions + dures FR/EN. RTF 2,49 sur L4 — à re-mesurer Mac/MLX.
Français + Anglais · 18 extraits
Français
🎙️ default neutre ▶ 😠 colère ▶ 🤩 enthousiaste ▶ 😢 triste ▶ 😊 gaie ▶ # chiffres ▶ ™ marques ▶ 👤 noms ▶ 🔡 codes ▶
Anglais
🎙️ default neutre ▶ 😠 colère ▶ 🤩 enthousiaste ▶ 😢 triste ▶ 😊 gaie ▶ # chiffres ▶ ™ marques ▶ 👤 noms ▶ 🔡 codes ▶
Monde · 6 langues · 6 extraits
Espagnol : 🎙️ default neutre ▶
Portugais : 🎙️ default neutre ▶
Allemand : 🎙️ default neutre ▶
Italien : 🎙️ default neutre ▶
Japonais : 🎙️ default neutre ▶
Chinois : 🎙️ default neutre ▶
Chatterbox Multilingual 0.5B 🖥️ self-host · chunké 26 extraits ✅ OFFLINE, MIT, 23 langues. RTF 1,08. ⚠️ voix FR par défaut = accent anglais (clonage utilisé en stream).
Français + Anglais · 18 extraits
Français
🎙️ default neutre ▶ 😠 colère ▶ 🤩 enthousiaste ▶ 😢 triste ▶ 😊 gaie ▶ # chiffres ▶ ™ marques ▶ 👤 noms ▶ 🔡 codes ▶
Anglais
🎙️ default neutre ▶ 😠 colère ▶ 🤩 enthousiaste ▶ 😢 triste ▶ 😊 gaie ▶ # chiffres ▶ ™ marques ▶ 👤 noms ▶ 🔡 codes ▶
Monde · 8 langues · 8 extraits
Espagnol : 🎙️ default neutre ▶
Portugais : 🎙️ default neutre ▶
Allemand : 🎙️ default neutre ▶
Italien : 🎙️ default neutre ▶
Néerlandais : 🎙️ default neutre ▶
Japonais : 🎙️ default neutre ▶
Chinois : 🎙️ default neutre ▶
Turc : 🎙️ default neutre ▶
Kokoro 82M 🖥️ self-host · batch 23 extraits ⛔ VOIX REJETÉE (trop synthétique, « fait IA ») + FR = 1 seule voix. MAIS 82 M params, <1 Go, RTF excellent → repli edge/embarqué ultra-léger. Présenté pour mémoire.
Français + Anglais · 18 extraits
Français
🎙️ default neutre ▶ 😠 colère ▶ 🤩 enthousiaste ▶ 😢 triste ▶ 😊 gaie ▶ # chiffres ▶ ™ marques ▶ 👤 noms ▶ 🔡 codes ▶
Anglais
🎙️ default neutre ▶ 😠 colère ▶ 🤩 enthousiaste ▶ 😢 triste ▶ 😊 gaie ▶ # chiffres ▶ ™ marques ▶ 👤 noms ▶ 🔡 codes ▶
Monde · 5 langues · 5 extraits
Espagnol : 🎙️ default neutre ▶
Portugais : 🎙️ default neutre ▶
Italien : 🎙️ default neutre ▶
Japonais : 🎙️ default neutre ▶
Chinois : 🎙️ default neutre ▶
⚠️ Non testable sur GCP (L4) — TTS SELF-HOST à mesurer sur le Mac mini M4 UNIQUEMENT
Les latences TTS
self-host (Kyutai, Qwen3-TTS, Chatterbox :
RTF, TTFA, pic VRAM ) sont mesurées sur
L4 CUDA en mode eager (sans flash-attn ni torch.compile).
Ces chiffres NE sont PAS le verdict pour la cible Mac mini M4 — juste une comparaison entre modèles. À refaire sur le Mac :
TTFA/RTF réels en MLX / Metal : le portage Apple Silicon change tout (Qwen3-TTS à RTF 2,49 sur L4 peut être bien plus rapide optimisé Mac ; idem Chatterbox/Kyutai). La vitesse self-host ne se tranche que là.
Cartesia Sonic On-Device (Apple Silicon/MLX, private beta) : le candidat TTS « qualité ≈ Gemini » offline ne tourne que sur Mac — à demander + bencher (le self-host datacenter Cartesia est calibré H100/H200, pas Mac).
Co-résidence en mémoire unifiée : STT + LLM + TTS ensemble dans la RAM unifiée du M4 — impossible sur la VM L4.
Conso / thermique / Neural Engine sur Apple Silicon.
Côté
cloud (Cartesia, Chirp 3 HD, Gemini), les latences mesurées sont valables (ce sont des APIs) ; seul le
self-host exige la cible Mac. → Bench
DÉCISIF = Mac mini M4 .