Six outils pour générer de l'audio à partir de texte, du livre audio classique au clonage de voix haute-fidélité. Ce guide t'aide à choisir le bon outil selon ton besoin.
| Outil | Langues | Voix | Vitesse | Qualité FR | Clonage | Émotions |
|---|---|---|---|---|---|---|
| Kokoro | 5 langues | 1 voix FR (féminine) | Lente | ★★★★ | non | non |
| Edge | Multi | 13 voix FR (FR/CA/BE/CH) | Ultra-rapide | ★★★★ | non | styles SSML |
| Supertonic | EN + FR | Plusieurs voix | Rapide (GPU) | ★★★ | non | non |
| Supertonic Local | EN + FR | Plusieurs voix | Selon ton ordi | ★★★ | non | non |
| Clonage (Chatterbox) | 23 langues | Voix clonée OU 28 voix prédéfinies | Lente (VRAM tight) | ★★★ | oui (~10 s) | tags [laugh] EN seul. |
| Clonage Pro (VoxCPM2) | 30 langues | Clonage + Voice Design | Rapide (4090) | ★★★★★ | oui (3-10 s) | style en langage naturel |
Modèle TTS de 82 millions de paramètres, sortie publique janvier 2025. Excellente qualité de voix pour sa taille. Une seule voix française (Siwis, féminine), mais elle est très naturelle. Plus lent que Edge mais le rendu est plus "chaleureux".
Quand l'utiliser : livres audio longs où la qualité prime sur la vitesse, et tu acceptes une voix féminine unique.
Particularités : archive MP3 intégrée avec lecteur riche (vitesse, ±10s/30s/1min/5min, reprise auto via localStorage).
Ouvrir Kokoro →Voix Microsoft Neural utilisées par Edge / Office. 13 voix françaises couvrant la France, le Canada, la Belgique et la Suisse — incluant des voix masculines et féminines de tous âges. Génère beaucoup plus vite que Kokoro car ça passe par les API en ligne de Microsoft.
Quand l'utiliser : par défaut pour la plupart des livres audio en français. Le meilleur compromis vitesse / qualité / variété de voix.
SSML : ces voix supportent SSML (Speech Synthesis Markup Language) si l'app le
permet. Exemples de balises possibles : <break time="500ms"/>,
<prosody rate="slow">...</prosody>,
<emphasis level="strong">...</emphasis>.
Moteur Supertonic accéléré sur GPU. Plusieurs voix au choix, en français comme en anglais. Plus rapide que Kokoro grâce au GPU mais qualité un peu moins naturelle.
Quand l'utiliser : si tu veux un compromis vitesse / variété de voix sur GPU local.
Ouvrir Supertonic →Même moteur Supertonic, mais qui tourne directement dans ton navigateur. Aucun texte, aucun fichier n'est envoyé à un serveur. Plus lent que la version GPU mais 100% privé.
Quand l'utiliser : documents sensibles, confidentiels, ou pas de connexion fiable.
Ouvrir Supertonic Local →Modèle Chatterbox Multilingual de Resemble AI (0.5B paramètres, MIT). Tu peux soit uploader 10 secondes de ta voix pour qu'il la clone, soit utiliser une des 28 voix prédéfinies incluses (Emily, Gianna, etc.). Voix clonée transférable : clone une voix anglaise pour la faire parler en français.
Le sous-modèle "Turbo" de Chatterbox supporte des tags directement dans le texte pour ajouter des réactions non-verbales :
Hello there [laugh] how are you? This is exhausting [sigh] but we'll get through it. Are you serious right now? [cough] Excuse me.
Tags supportés : [laugh], [sigh], [gasp],
[chuckle], [cough], [clear throat], [sniff],
[groan], [shush].
Limitation : ces tags ne fonctionnent qu'avec Turbo, et Turbo ne parle qu'anglais.
Modèle VoxCPM2 d'OpenBMB (2 milliards de paramètres, sortie 2026, Apache 2.0). État de l'art en clonage vocal multilingue, bat ElevenLabs sur la similarité de voix selon les benchmarks publics. Tourne sur la RTX 4090 mobile (16 GB VRAM, beaucoup d'espace pour générer des audios longs sans ralentissement).
L'interface propose quatre onglets en haut de la page : 📚 Voice Library (par défaut, recommandé) / Voix par défaut / Voice Design / Clonage. Le mode Voice Library est le plus simple et le plus fiable : 20 voix françaises pré-générées que tu peux écouter avant d'utiliser.
20 voix françaises soigneusement choisies, prêtes à l'emploi. Pour chacune : un bouton "écouter" avec un sample de ~6 s (clique avant de générer pour vérifier que la voix te plaît), et un bouton ↻ régénérer si une voix sonne mal. Une fois la voix sélectionnée et ton texte tapé, clique Generate — le résultat aura exactement la même voix que le sample (pas de variance entre l'aperçu et la génération finale, puisque le sample sert d'audio de référence en clonage).
Les 20 voix incluses :
1. Voix par défaut — coller juste le texte, rien d'autre :
Bonjour, ceci est un test du système VoxCPM 2.
2. Voice Design — décrire la voix en langage naturel entre parenthèses au début :
(une jeune femme québécoise, voix douce et chaleureuse, débit posé) Bienvenue à Art Partage, ravie de vous recevoir aujourd'hui.
Tu peux décrire : genre, âge, accent, ton, émotion, débit, timbre, contexte. Plus tu es précis, plus le résultat correspondra. Exemples de présets utiles :
(homme québécois, 50 ans, voix grave et posée)(narrateur français, ton dramatique, débit lent)(jeune femme parisienne, voix énergique et joyeuse)(grand-père chaleureux, voix légèrement éraillée)(speakerine radio, ton professionnel et neutre)(enfant de 8 ans, voix claire et enjouée)(homme à l'accent marseillais, voix expressive)3. Clonage à partir d'un audio de référence — uploade 3-10 secondes de la voix à cloner. Tu peux combiner avec une description de style :
(plus rapide, ton joyeux) Quelle journée magnifique ! Sortons profiter du soleil !
VoxCPM2 n'utilise pas de tags fixes comme [laugh]. À la place, deux
approches naturelles :
A. Préfixe de style entre parenthèses (s'applique à tout le texte qui suit) :
(triste, voix basse)Je n'arrive pas à y croire... (énervé)Ça suffit, j'en ai assez ! (chuchoté)Approche, j'ai un secret à te dire. (plus rapide, cheerful tone)C'est génial, merci beaucoup !
B. Synthèse "context-aware" — VoxCPM2 lit le sens du texte et adapte la prosodie tout seul :
! ? ... —Donc "AÏE ! Ça brûle... attention, c'est chaud !!" sera lu avec la bonne intonation
sans aucun tag à ajouter.
torch.compile est activable.Livre audio long (un roman, un cours) en français, voix neutre → Edge (rapide, 13 voix FR au choix) ou Kokoro (plus lent mais voix plus chaleureuse).
Voix de TON narrateur préféré ou ta propre voix → Clonage Pro (VoxCPM2). Ça clone à partir de 3-10 s. Avant ça utilisais Clonage (Chatterbox) mais VoxCPM2 sur la 4090 fait nettement mieux pour le français.
Pas envie d'enregistrer une voix de référence, mais tu veux une voix "sur mesure" pour un narrateur fictif → Clonage Pro (VoxCPM2) mode Voice Design. Tu décris la voix en mots et VoxCPM2 l'invente.
Document sensible qui ne doit pas quitter ton ordi → Supertonic Local (tout en navigateur, rien envoyé au serveur).
Personnages avec émotions très marquées (rire, soupir, etc.) →
Clonage (Chatterbox Turbo) avec ses tags [laugh], mais
seulement en anglais. Pour le français, utilise plutôt VoxCPM2 avec préfixe de
style entre parenthèses.
Une question ? Un nouveau besoin ? rad.gagnon@artpartage.ca