Guide des outils de voix

Six outils pour générer de l'audio à partir de texte, du livre audio classique au clonage de voix haute-fidélité. Ce guide t'aide à choisir le bon outil selon ton besoin.

Tableau comparatif

Outil	Langues	Voix	Vitesse	Qualité FR	Clonage	Émotions
Kokoro	5 langues	1 voix FR (féminine)	Lente	★★★★	non	non
Edge	Multi	13 voix FR (FR/CA/BE/CH)	Ultra-rapide	★★★★	non	styles SSML
Supertonic	EN + FR	Plusieurs voix	Rapide (GPU)	★★★	non	non
Supertonic Local	EN + FR	Plusieurs voix	Selon ton ordi	★★★	non	non
Clonage (Chatterbox)	23 langues	Voix clonée OU 28 voix prédéfinies	Lente (VRAM tight)	★★★	oui (~10 s)	tags `[laugh]` EN seul.
Clonage Pro (VoxCPM2)	30 langues	Clonage + Voice Design	Rapide (4090)	★★★★★	oui (3-10 s)	style en langage naturel

Pas envie de lire tout le détail ?

Pour un livre audio FR classique, voix neutre, rapide → Edge
Pour la meilleure qualité audio FR sans clonage → Kokoro
Pour cloner ta propre voix en français → Clonage Pro (VoxCPM2)
Pour un narrateur "sur mesure" décrit en mots (sans clonage) → Clonage Pro (VoxCPM2)

Détails par outil

Kokoro Livre Audio

PDF / DOCX / Texte → MP3 FR + EN + ES + PT GPU local

Modèle TTS de 82 millions de paramètres, sortie publique janvier 2025. Excellente qualité de voix pour sa taille. Une seule voix française (Siwis, féminine), mais elle est très naturelle. Plus lent que Edge mais le rendu est plus "chaleureux".

Quand l'utiliser : livres audio longs où la qualité prime sur la vitesse, et tu acceptes une voix féminine unique.

Particularités : archive MP3 intégrée avec lecteur riche (vitesse, ±10s/30s/1min/5min, reprise auto via localStorage).

Ouvrir Kokoro →

Edge Livre Audio

PDF / DOCX / Texte → MP3 13 voix FR Ultra-rapide SSML

Voix Microsoft Neural utilisées par Edge / Office. 13 voix françaises couvrant la France, le Canada, la Belgique et la Suisse — incluant des voix masculines et féminines de tous âges. Génère beaucoup plus vite que Kokoro car ça passe par les API en ligne de Microsoft.

Quand l'utiliser : par défaut pour la plupart des livres audio en français. Le meilleur compromis vitesse / qualité / variété de voix.

SSML : ces voix supportent SSML (Speech Synthesis Markup Language) si l'app le permet. Exemples de balises possibles : <break time="500ms"/>, <prosody rate="slow">...</prosody>, <emphasis level="strong">...</emphasis>.

Ouvrir Edge →

Supertonic Livre Audio

PDF → MP3 EN + FR GPU rapide

Moteur Supertonic accéléré sur GPU. Plusieurs voix au choix, en français comme en anglais. Plus rapide que Kokoro grâce au GPU mais qualité un peu moins naturelle.

Quand l'utiliser : si tu veux un compromis vitesse / variété de voix sur GPU local.

Ouvrir Supertonic →

Supertonic Livre Audio (Local)

100% navigateur → MP3 Privé Sans serveur

Même moteur Supertonic, mais qui tourne directement dans ton navigateur. Aucun texte, aucun fichier n'est envoyé à un serveur. Plus lent que la version GPU mais 100% privé.

Quand l'utiliser : documents sensibles, confidentiels, ou pas de connexion fiable.

Ouvrir Supertonic Local →

Clonage de voix (Chatterbox Multilingual)

Voice cloning 23 langues incl. FR 10 s de voix de référence 28 voix prédéfinies

Modèle Chatterbox Multilingual de Resemble AI (0.5B paramètres, MIT). Tu peux soit uploader 10 secondes de ta voix pour qu'il la clone, soit utiliser une des 28 voix prédéfinies incluses (Emily, Gianna, etc.). Voix clonée transférable : clone une voix anglaise pour la faire parler en français.

Tags paralinguistiques (Turbo, anglais uniquement)

Le sous-modèle "Turbo" de Chatterbox supporte des tags directement dans le texte pour ajouter des réactions non-verbales :

Hello there [laugh] how are you?
This is exhausting [sigh] but we'll get through it.
Are you serious right now? [cough] Excuse me.

Tags supportés : [laugh], [sigh], [gasp], [chuckle], [cough], [clear throat], [sniff], [groan], [shush]. Limitation : ces tags ne fonctionnent qu'avec Turbo, et Turbo ne parle qu'anglais.

Attention VRAM : cet outil partage la même carte graphique que Kokoro et d'autres apps locales (1660 Ti 6 GB). Les générations peuvent être lentes en cas de saturation.

Ouvrir Clonage →

Clonage de voix Pro (VoxCPM2)

Voice cloning 30 langues incl. FR Voice Design RTX 4090 mobile 2026

Modèle VoxCPM2 d'OpenBMB (2 milliards de paramètres, sortie 2026, Apache 2.0). État de l'art en clonage vocal multilingue, bat ElevenLabs sur la similarité de voix selon les benchmarks publics. Tourne sur la RTX 4090 mobile (16 GB VRAM, beaucoup d'espace pour générer des audios longs sans ralentissement).

Quatre modes de génération

L'interface propose quatre onglets en haut de la page : 📚 Voice Library (par défaut, recommandé) / Voix par défaut / Voice Design / Clonage. Le mode Voice Library est le plus simple et le plus fiable : 20 voix françaises pré-générées que tu peux écouter avant d'utiliser.

Mode 0 : Voice Library (recommandé)

20 voix françaises soigneusement choisies, prêtes à l'emploi. Pour chacune : un bouton "écouter" avec un sample de ~6 s (clique avant de générer pour vérifier que la voix te plaît), et un bouton ↻ régénérer si une voix sonne mal. Une fois la voix sélectionnée et ton texte tapé, clique Generate — le résultat aura exactement la même voix que le sample (pas de variance entre l'aperçu et la génération finale, puisque le sample sert d'audio de référence en clonage).

Les 20 voix incluses :

Hommes (10) : Narrateur français classique, Homme québécois âgé, Homme parisien jeune, Voix radio professionnelle, Conteur d'histoires, Commentateur sportif, Voix grave dramatique, Vieux sage, Homme suisse romand, Marseillais expressif
Femmes (8) : Narratrice douce, Présentatrice JT, Femme québécoise jeune, Conteuse pour enfants, Voix mature posée, Femme parisienne énergique, Voix douce romantique, Voix professionnelle confiante
Enfants (2) : Petite fille enthousiaste, Petit garçon curieux

Les trois modes plus avancés

1. Voix par défaut — coller juste le texte, rien d'autre :

Bonjour, ceci est un test du système VoxCPM 2.

2. Voice Design — décrire la voix en langage naturel entre parenthèses au début :

(une jeune femme québécoise, voix douce et chaleureuse, débit posé)
Bienvenue à Art Partage, ravie de vous recevoir aujourd'hui.

Tu peux décrire : genre, âge, accent, ton, émotion, débit, timbre, contexte. Plus tu es précis, plus le résultat correspondra. Exemples de présets utiles :

(homme québécois, 50 ans, voix grave et posée)
(narrateur français, ton dramatique, débit lent)
(jeune femme parisienne, voix énergique et joyeuse)
(grand-père chaleureux, voix légèrement éraillée)
(speakerine radio, ton professionnel et neutre)
(enfant de 8 ans, voix claire et enjouée)
(homme à l'accent marseillais, voix expressive)

3. Clonage à partir d'un audio de référence — uploade 3-10 secondes de la voix à cloner. Tu peux combiner avec une description de style :

(plus rapide, ton joyeux)
Quelle journée magnifique ! Sortons profiter du soleil !

"Intentions" / émotions dans le texte

VoxCPM2 n'utilise pas de tags fixes comme [laugh]. À la place, deux approches naturelles :

A. Préfixe de style entre parenthèses (s'applique à tout le texte qui suit) :

(triste, voix basse)Je n'arrive pas à y croire...
(énervé)Ça suffit, j'en ai assez !
(chuchoté)Approche, j'ai un secret à te dire.
(plus rapide, cheerful tone)C'est génial, merci beaucoup !

B. Synthèse "context-aware" — VoxCPM2 lit le sens du texte et adapte la prosodie tout seul :

Ponctuation : ! ? ... —
Majuscules pour insister : "C'est INADMISSIBLE !"
Mots émotionnels : "j'ai peur", "génial !", "doucement..."
Structure des phrases (questions, exclamations, pauses)

Donc "AÏE ! Ça brûle... attention, c'est chaud !!" sera lu avec la bonne intonation sans aucun tag à ajouter.

Performance et limites

Vitesse : RTF ~2.3 sur Windows (16 s pour générer 7 s d'audio). Plus rapide sur Linux où torch.compile est activable.
Référence audio : 3-10 secondes idéalement, audio propre, mono ou stéréo, n'importe quelle langue (le clonage est cross-lingual).
Longueur du texte : pas de vraie limite, mais les très longs textes sont découpés en chunks. Plus efficace avec textes ≤ 500 caractères par génération.

Ouvrir Clonage Pro →

Lequel choisir selon ton besoin ?

Livre audio long (un roman, un cours) en français, voix neutre → Edge (rapide, 13 voix FR au choix) ou Kokoro (plus lent mais voix plus chaleureuse).

Voix de TON narrateur préféré ou ta propre voix → Clonage Pro (VoxCPM2). Ça clone à partir de 3-10 s. Avant ça utilisais Clonage (Chatterbox) mais VoxCPM2 sur la 4090 fait nettement mieux pour le français.

Pas envie d'enregistrer une voix de référence, mais tu veux une voix "sur mesure" pour un narrateur fictif → Clonage Pro (VoxCPM2) mode Voice Design. Tu décris la voix en mots et VoxCPM2 l'invente.

Document sensible qui ne doit pas quitter ton ordi → Supertonic Local (tout en navigateur, rien envoyé au serveur).

Personnages avec émotions très marquées (rire, soupir, etc.) → Clonage (Chatterbox Turbo) avec ses tags [laugh], mais seulement en anglais. Pour le français, utilise plutôt VoxCPM2 avec préfixe de style entre parenthèses.

Astuces générales

Nettoie ton PDF d'abord avec le Nettoyeur PDF : ça enlève les en-têtes / numéros de page / artefacts qui sinon seraient lus à voix haute.
Découpe les longs textes en chapitres / sections. Plusieurs MP3 courts sont plus faciles à reprendre que un seul gros fichier.
Utilise l'archive intégrée de Kokoro et VoxCPM2 : les fichiers générés y sont listés, avec lecteur riche (±10s/30s/1min/5min, vitesse, reprise auto où tu t'étais arrêté).
Pour cloner ta voix proprement : enregistre 10 s de toi qui parle de manière naturelle, sans bruit de fond, dans une pièce non réverbérante. Évite les longs silences au début ou à la fin de l'extrait.
VoxCPM2 et accents régionaux : précise l'accent dans la description (québécois, marseillais, parisien, suisse romand) et il essaie de l'imiter.

Une question ? Un nouveau besoin ? rad.gagnon@artpartage.ca