⚠️ La latence classe la réactivité, pas le rendu — c'est l'oreille qui tranche la qualité/l'accent. Sorties générées en mode streaming, du plus rapide (cloud) au self-host. Clique un chip pour écouter (lecteur en bas). Sections fermées par défaut. Généré le 2026-06-24.
Cartesia Sonic-3.5
☁️ cloud · SSE93 extraits
🥇 TTFA ~176–215 ms (le + bas). 42 langues. ⚠️ pas d'endpoint EU, ZDR réservé entreprise >20 k$/an. Voix FR : Laurent/Inès/Pauline (Amélie écartée). Dures Cartesia = juillet (quota).
Anglais (GB)🎙️ en GB Chirp3 HD Achernarneutre ▶😠 colère ▶🤩 enthousiaste ▶😢 triste ▶😊 gaie ▶🎙️ en GB Chirp3 HD Achirdneutre ▶😠 colère ▶🤩 enthousiaste ▶😢 triste ▶😊 gaie ▶🎙️ en GB Chirp3 HD Aoedeneutre ▶😠 colère ▶🤩 enthousiaste ▶😢 triste ▶😊 gaie ▶
Anglais (US)🎙️ en US Chirp3 HD Achernarneutre ▶😠 colère ▶🤩 enthousiaste ▶😢 triste ▶😊 gaie ▶🎙️ en US Chirp3 HD Achirdneutre ▶😠 colère ▶🤩 enthousiaste ▶😢 triste ▶😊 gaie ▶🎙️ en US Chirp3 HD Algenibneutre ▶😠 colère ▶🤩 enthousiaste ▶😢 triste ▶😊 gaie ▶
Monde · 9 langues · 32 extraits
Espagnol (Espagne) :🎙️ es ES Chirp3 HD Achernarneutre ▶🎙️ es ES Chirp3 HD Achirdneutre ▶Espagnol (Amérique latine) :🎙️ es US Chirp3 HD Achernarneutre ▶🎙️ es US Chirp3 HD Achirdneutre ▶Portugais (Brésil) :🎙️ pt BR Chirp3 HD Achernarneutre ▶🎙️ pt BR Chirp3 HD Achirdneutre ▶🎙️ pt BR Chirp3 HD Algenibneutre ▶🎙️ pt BR Chirp3 HD Aoedeneutre ▶Allemand :🎙️ de DE Chirp3 HD Achernarneutre ▶🎙️ de DE Chirp3 HD Achirdneutre ▶🎙️ de DE Chirp3 HD Algenibneutre ▶🎙️ de DE Chirp3 HD Aoedeneutre ▶Italien :🎙️ it IT Chirp3 HD Achernarneutre ▶🎙️ it IT Chirp3 HD Achirdneutre ▶🎙️ it IT Chirp3 HD Algenibneutre ▶🎙️ it IT Chirp3 HD Aoedeneutre ▶Néerlandais :🎙️ nl NL Chirp3 HD Achernarneutre ▶🎙️ nl NL Chirp3 HD Achirdneutre ▶🎙️ nl NL Chirp3 HD Algenibneutre ▶🎙️ nl NL Chirp3 HD Aoedeneutre ▶Japonais :🎙️ ja JP Chirp3 HD Achernarneutre ▶🎙️ ja JP Chirp3 HD Achirdneutre ▶🎙️ ja JP Chirp3 HD Algenibneutre ▶🎙️ ja JP Chirp3 HD Aoedeneutre ▶Chinois :🎙️ cmn CN Chirp3 HD Achernarneutre ▶🎙️ cmn CN Chirp3 HD Achirdneutre ▶🎙️ cmn CN Chirp3 HD Algenibneutre ▶🎙️ cmn CN Chirp3 HD Aoedeneutre ▶Turc :🎙️ tr TR Chirp3 HD Achernarneutre ▶🎙️ tr TR Chirp3 HD Achirdneutre ▶🎙️ tr TR Chirp3 HD Algenibneutre ▶🎙️ tr TR Chirp3 HD Aoedeneutre ▶
Gemini Live API (native audio)
☁️ cloud · WebSocket29 extraits
TTFA ~540–917 ms. Toutes langues (Charon M + Kore F), neutre + colère/enthousiaste + phrase RDV (male). Lourd (WS), pas EU pour le modèle rapide.
⚠️ Non testable sur GCP (L4) — TTS SELF-HOST à mesurer sur le Mac mini M4 UNIQUEMENT
Les latences TTS self-host (Kyutai, Qwen3-TTS, Chatterbox : RTF, TTFA, pic VRAM) sont mesurées sur
L4 CUDA en mode eager (sans flash-attn ni torch.compile). Ces chiffres NE sont PAS le verdict pour la cible Mac mini M4 — juste une comparaison entre modèles. À refaire sur le Mac :
TTFA/RTF réels en MLX / Metal : le portage Apple Silicon change tout (Qwen3-TTS à RTF 2,49 sur L4 peut être bien plus rapide optimisé Mac ; idem Chatterbox/Kyutai). La vitesse self-host ne se tranche que là.
Cartesia Sonic On-Device (Apple Silicon/MLX, private beta) : le candidat TTS « qualité ≈ Gemini » offline ne tourne que sur Mac — à demander + bencher (le self-host datacenter Cartesia est calibré H100/H200, pas Mac).
Co-résidence en mémoire unifiée : STT + LLM + TTS ensemble dans la RAM unifiée du M4 — impossible sur la VM L4.
Conso / thermique / Neural Engine sur Apple Silicon.
Côté cloud (Cartesia, Chirp 3 HD, Gemini), les latences mesurées sont valables (ce sont des APIs) ; seul le self-host exige la cible Mac. → Bench DÉCISIF = Mac mini M4.