Guide des outils de voix

Six outils pour générer de l'audio à partir de texte, du livre audio classique au clonage de voix haute-fidélité. Ce guide t'aide à choisir le bon outil selon ton besoin.

Tableau comparatif

Outil Langues Voix Vitesse Qualité FR Clonage Émotions
Kokoro 5 langues 1 voix FR (féminine) Lente ★★★★ non non
Edge Multi 13 voix FR (FR/CA/BE/CH) Ultra-rapide ★★★★ non styles SSML
Supertonic EN + FR Plusieurs voix Rapide (GPU) ★★★ non non
Supertonic Local EN + FR Plusieurs voix Selon ton ordi ★★★ non non
Clonage (Chatterbox) 23 langues Voix clonée OU 28 voix prédéfinies Lente (VRAM tight) ★★★ oui (~10 s) tags [laugh] EN seul.
Clonage Pro (VoxCPM2) 30 langues Clonage + Voice Design Rapide (4090) ★★★★★ oui (3-10 s) style en langage naturel
Pas envie de lire tout le détail ?

Détails par outil

Kokoro Livre Audio

PDF / DOCX / Texte → MP3 FR + EN + ES + PT GPU local

Modèle TTS de 82 millions de paramètres, sortie publique janvier 2025. Excellente qualité de voix pour sa taille. Une seule voix française (Siwis, féminine), mais elle est très naturelle. Plus lent que Edge mais le rendu est plus "chaleureux".

Quand l'utiliser : livres audio longs où la qualité prime sur la vitesse, et tu acceptes une voix féminine unique.

Particularités : archive MP3 intégrée avec lecteur riche (vitesse, ±10s/30s/1min/5min, reprise auto via localStorage).

Ouvrir Kokoro →

Edge Livre Audio

PDF / DOCX / Texte → MP3 13 voix FR Ultra-rapide SSML

Voix Microsoft Neural utilisées par Edge / Office. 13 voix françaises couvrant la France, le Canada, la Belgique et la Suisse — incluant des voix masculines et féminines de tous âges. Génère beaucoup plus vite que Kokoro car ça passe par les API en ligne de Microsoft.

Quand l'utiliser : par défaut pour la plupart des livres audio en français. Le meilleur compromis vitesse / qualité / variété de voix.

SSML : ces voix supportent SSML (Speech Synthesis Markup Language) si l'app le permet. Exemples de balises possibles : <break time="500ms"/>, <prosody rate="slow">...</prosody>, <emphasis level="strong">...</emphasis>.

Ouvrir Edge →

Supertonic Livre Audio

PDF → MP3 EN + FR GPU rapide

Moteur Supertonic accéléré sur GPU. Plusieurs voix au choix, en français comme en anglais. Plus rapide que Kokoro grâce au GPU mais qualité un peu moins naturelle.

Quand l'utiliser : si tu veux un compromis vitesse / variété de voix sur GPU local.

Ouvrir Supertonic →

Supertonic Livre Audio (Local)

100% navigateur → MP3 Privé Sans serveur

Même moteur Supertonic, mais qui tourne directement dans ton navigateur. Aucun texte, aucun fichier n'est envoyé à un serveur. Plus lent que la version GPU mais 100% privé.

Quand l'utiliser : documents sensibles, confidentiels, ou pas de connexion fiable.

Ouvrir Supertonic Local →

Clonage de voix (Chatterbox Multilingual)

Voice cloning 23 langues incl. FR 10 s de voix de référence 28 voix prédéfinies

Modèle Chatterbox Multilingual de Resemble AI (0.5B paramètres, MIT). Tu peux soit uploader 10 secondes de ta voix pour qu'il la clone, soit utiliser une des 28 voix prédéfinies incluses (Emily, Gianna, etc.). Voix clonée transférable : clone une voix anglaise pour la faire parler en français.

Tags paralinguistiques (Turbo, anglais uniquement)

Le sous-modèle "Turbo" de Chatterbox supporte des tags directement dans le texte pour ajouter des réactions non-verbales :

Hello there [laugh] how are you?
This is exhausting [sigh] but we'll get through it.
Are you serious right now? [cough] Excuse me.

Tags supportés : [laugh], [sigh], [gasp], [chuckle], [cough], [clear throat], [sniff], [groan], [shush]. Limitation : ces tags ne fonctionnent qu'avec Turbo, et Turbo ne parle qu'anglais.

Attention VRAM : cet outil partage la même carte graphique que Kokoro et d'autres apps locales (1660 Ti 6 GB). Les générations peuvent être lentes en cas de saturation.
Ouvrir Clonage →

Clonage de voix Pro (VoxCPM2)

Voice cloning 30 langues incl. FR Voice Design RTX 4090 mobile 2026

Modèle VoxCPM2 d'OpenBMB (2 milliards de paramètres, sortie 2026, Apache 2.0). État de l'art en clonage vocal multilingue, bat ElevenLabs sur la similarité de voix selon les benchmarks publics. Tourne sur la RTX 4090 mobile (16 GB VRAM, beaucoup d'espace pour générer des audios longs sans ralentissement).

Quatre modes de génération

L'interface propose quatre onglets en haut de la page : 📚 Voice Library (par défaut, recommandé) / Voix par défaut / Voice Design / Clonage. Le mode Voice Library est le plus simple et le plus fiable : 20 voix françaises pré-générées que tu peux écouter avant d'utiliser.

Mode 0 : Voice Library (recommandé)

20 voix françaises soigneusement choisies, prêtes à l'emploi. Pour chacune : un bouton "écouter" avec un sample de ~6 s (clique avant de générer pour vérifier que la voix te plaît), et un bouton ↻ régénérer si une voix sonne mal. Une fois la voix sélectionnée et ton texte tapé, clique Generate — le résultat aura exactement la même voix que le sample (pas de variance entre l'aperçu et la génération finale, puisque le sample sert d'audio de référence en clonage).

Les 20 voix incluses :

Les trois modes plus avancés

1. Voix par défaut — coller juste le texte, rien d'autre :

Bonjour, ceci est un test du système VoxCPM 2.

2. Voice Design — décrire la voix en langage naturel entre parenthèses au début :

(une jeune femme québécoise, voix douce et chaleureuse, débit posé)
Bienvenue à Art Partage, ravie de vous recevoir aujourd'hui.

Tu peux décrire : genre, âge, accent, ton, émotion, débit, timbre, contexte. Plus tu es précis, plus le résultat correspondra. Exemples de présets utiles :

3. Clonage à partir d'un audio de référence — uploade 3-10 secondes de la voix à cloner. Tu peux combiner avec une description de style :

(plus rapide, ton joyeux)
Quelle journée magnifique ! Sortons profiter du soleil !

"Intentions" / émotions dans le texte

VoxCPM2 n'utilise pas de tags fixes comme [laugh]. À la place, deux approches naturelles :

A. Préfixe de style entre parenthèses (s'applique à tout le texte qui suit) :

(triste, voix basse)Je n'arrive pas à y croire...
(énervé)Ça suffit, j'en ai assez !
(chuchoté)Approche, j'ai un secret à te dire.
(plus rapide, cheerful tone)C'est génial, merci beaucoup !

B. Synthèse "context-aware" — VoxCPM2 lit le sens du texte et adapte la prosodie tout seul :

Donc "AÏE ! Ça brûle... attention, c'est chaud !!" sera lu avec la bonne intonation sans aucun tag à ajouter.

Performance et limites

Ouvrir Clonage Pro →

Lequel choisir selon ton besoin ?

Livre audio long (un roman, un cours) en français, voix neutre → Edge (rapide, 13 voix FR au choix) ou Kokoro (plus lent mais voix plus chaleureuse).

Voix de TON narrateur préféré ou ta propre voixClonage Pro (VoxCPM2). Ça clone à partir de 3-10 s. Avant ça utilisais Clonage (Chatterbox) mais VoxCPM2 sur la 4090 fait nettement mieux pour le français.

Pas envie d'enregistrer une voix de référence, mais tu veux une voix "sur mesure" pour un narrateur fictif → Clonage Pro (VoxCPM2) mode Voice Design. Tu décris la voix en mots et VoxCPM2 l'invente.

Document sensible qui ne doit pas quitter ton ordi → Supertonic Local (tout en navigateur, rien envoyé au serveur).

Personnages avec émotions très marquées (rire, soupir, etc.)Clonage (Chatterbox Turbo) avec ses tags [laugh], mais seulement en anglais. Pour le français, utilise plutôt VoxCPM2 avec préfixe de style entre parenthèses.

Astuces générales

Une question ? Un nouveau besoin ? rad.gagnon@artpartage.ca