Reconnaisance vocale, de la parole à l'écrit

Vous vous êtes souvent demandé comment retranscrire vos notes vocales,un discours, une conversation en texte ? Quel logiciel utiliser ? Les caractéristiques ?
Cette page, orientée pour aider les personnes sourdes/malentendantes renseignera également toutes personnes ayant besoin de retranscrire de la "voix" en "texte".

Nouveau : Mise à jour du 1 décembre 2017 : ajout de scribovox, mise à jour du 5 janvier 2017 : ajout de Lync et Microsoft Translator , historique des mises à jour : 20 novembre 2016 ajout de PEDIUS, 31 octobre 2016 : ajout de AVA, le chapitre prototype et confidentialité, 28 octobre 2016 (maj mineure), 26/10/2016 mises à jours importante : liste logiciels de reconnaissance vocale.

Principales caractéristiques

Avant de choisir une solution attention aux caractéristiques suivantes :

Temps réel ET/OU différé (depuis un dictaphone par exemple)
mono-locuteur ET/OU multi-locuteur
Avec une phase d'apprentissage obligatoire (vous devez lire un texte précis) ou sans apprentissage
Connexion à internet obligatoire ET/OU mode déconnecté (sans internet) possible
Format de la retranscription : Texte seul, texte incrusté dans une vidéo, texte avec données temporelles, ... Export / modification possible ou non...

Logiciels grand public

Temps réel

DRAGON (Société NUANCE)
Propose son logiciel phare : "Dragon" le plus fiable du marché en français à l'heure actuelle. Propose plusieurs versions en fonction de votre activité : HOME, PREMIUM, pour particuliers, professionnels, avocats, docteurs...
En fonction de la version sélectionnée vous pouvez faire de la dictée temps réel (avec ou sans apprentissage : mais l'apprentissage de votre voix est conseillé pour de meilleurs résultats), ou en différé avec un dictaphone / fichier mp3 (attention vous disponible uniquement sur certaines versions PREMIUM / VCR uniquement...) Notez qu'il existe des versions VCR que vous trouverez rarement ici et là vendues avec un dictaphone, mais cette version semble disparaître (les versions actuelles ne sont pas compatibles Windows 10 par exemple, choisissez de préférence la version PREMIUM).Nuance propose un clavier "logiciel" à installer sur votre téléphone pour bénéficier de son outil de reconnaissance vocale sur votre téléphone Android/Apple ...
- Version HOME : Temps réel :mono-locuteur (vous devez créer autant de profils que d'utilisateurs), avec ou sans apprentissage (fortement conseillé), mode déconnecté (sans internet)
- Version PREMIUM : Idem que version HOME + mode différé (depuis fichier mp3) : ce mode impose un apprentissage obligatoire
- Autres versions : "Professional", avec un vocabulaire plus précis, livré avec ou sans accessoires... les tarifs supérieurs à 300 euros ne sont plus adaptés au "grand public"...

ROGER VOICE (Moteur GOOGLE)
Logiciel français, vous permet de téléphoner et de disposer de sous-titres en temps réel de vos conversations, le logiciel en est encore à ses débuts, il nécessite d'avoir une bonne qualité audio pour vous-même et votre interlocuteur, mais c'est aujourd'hui la seule solution automatique immédiatement utilisable sur son téléphone pour pouvoir téléphoner (avec un vrai numéro 01... 06...) et disposer de sous-titres temps réel
Lien : https://rogervoice.com/fr/
PEDIUS Nouveau 20 Novembre 2016
Disponible en français depuis peu, PEDIUS permet de téléphoner, disposer de sous-titres temps réel, et propose également un système de synthèse vocal permettant d'échanger du texte qui sera converti en voix pour votre interlocuteur.
Lien : http://www.pedius.org/fr/

GOOGLE
Sur tous les téléphones ANDROID vous pouvez installer si ce n'est pas encore fait, le clavier "logiciel" GOOGLE avec sa touche microphone pour dicter SMS, MAIL et autres textes de courtes durées.
Nombre de logiciels ANDROID utilisent le moteur "GOOGLE" pour la reconnaissance vocale avec plus ou moins de succès pour des textes plus longs.
Google innove : Avec le navigateur "chrome" et le service "Google Doc" vous avez désormais la possibilité de dicter des textes longs directement depuis votre PC.
Depuis quelques mois son moteur de reconnaissance vocale est disponible pour les développeurs en mode "déconnecté" sans réseau internet !
Ce qui permet à des applications comme SpeechNotes de voir le jour (pensez à installer le pack de langue français dans les options "Android" pour pouvoir l'utiliser hors connection).
SKYPE avec option TRANSLATOR / Lync avec Conversation Translator (version pro de Skype avec module)
Aujourd'hui intégré directement au sein de SKYPE, vous disposez d'une option de sous-titrage ET traduction automatique, vous pouvez bien sûr faire du français -> français et disposer de sous-titres en français.
Notez qu'il est possible de demander un numéro de téléphone SKYPE moyennant le paiement d'une option.
Speechnotes et speechlog (application ANDROID basée sur moteur GOOGLE)
Basé sur le moteur de Google ce dernier fonctionne très bien pour la dictée de textes de longues durées (avec option pour conserver le micro ouvert)
lien : https://play.google.com/store/apps/details?id=co.speechnotes.speechnotes
SpeechNotes pour le navigateur Google Chrome
Identique au précédent avec la possibilité de l'utiliser sur votre ordinateur portable / ou de bureau
lien : https://speechnotes.co/
Microsoft Translator pour IPhone, Android, Windows phone...
Prévu pour faire de la traduction en temps réel, cet outil permet également de faire de la transcription français-> français.
Important : il dispose d'une option "chat" qui vous permet de créer un groupe de conversation ou chaque interlocuteur est identié par son nom et fonctionne ainsi à la manière de "AVA" (voir plus bas section prototypes).
Nombreuses autres applications ANDROID
Il existe de nombreuses applications ANDROID basées sur le moteur de GOOGLE qui nécessite l'appuie régulier sur un bouton / icône, fort heureusement certaines applications comme Sppechnotes cité ci-dessus utilisent les dernières options de GOOGLE permettant une dictée de plus longue durée.

Voir aussi : trousse à outils mobile

Différé (depuis un enregistrement sur dictaphone par exemple)

YOUTUBE (moteur GOOGLE)
Vous pouvez depuis plusieurs années déjà, transférer vos vidéos ( ou fichiers audio transformés en vidéo) et profiter d'une retranscription intégrée gratuite avec traduction possible, toujours automatique dans plusieurs langes. Même si à ses débuts cette fonction était très limitée, elle devient de plus en plus fiable avec le temps.

CAPTOO
Une société française propose une solution essentiellement orientée pour la retranscription de réunions pour les mairies. Le logiciel fonctionne en différé, mais avec un atout notable important : il est "multi-locuteur" et est capable de distinguer et identifier le locuteur automatiquement.
DRAGON (Nuance) dans sa version PREMIUM (minimum)
Attention il vous faudra passer par une phase d'apprentissage pour le moment (un texte à lire dans votre dictaphone une première fois pour que le logiciel s'adapte à votre voix)

Pour développeurs

Les développeurs d'applications disposent souvent de logiciels et d'accès à des services en ligne avec un grand temps d'avance, ce qui permet également de prévoir ce qu'il sera possible de faire dans les prochains mois, semaines ou jours...

NUANCE
Offre depuis plusieurs années des librairies logicielles accessibles avec ses partenaires et développeurs, ce qui fait que NUANCE a déjà envahi une grande partie du marché : voitures, robots, téléviseurs connectés.
WATSON (IBM)
C'est l'intelligence artificielle phare d'IBM avec de très nombreuses années de succès à son actif, et, bonne nouvelle, est maintenant disponible en français ! Les essais que j'ai pu mener dessus sont très intéressants, en temps réel, ou différé avec une panoplie d'options liées à l'IA d'IBM, les logiciels qui utilisent ce moteur peuvent donner des solutions innovantes et performantes, mais il est encore trop tôt pour le moment pour s'avancer, utilisé essentiellement pour des projets internes, pour "aider" certaines sociétés de sous-titrage, IBM n'offre pas encore pour le moment un accès grand public à son outil. Il faut alors se tourner vers ses partenaires qui travaillent actuellement dessus.
MICROSOFT / KINECT / CORTANA /...
Comme ses concurrents MICROSOFT offre une porte ouverte à certains de ses services de retranscription de la voix en texte. Vous trouverez également une gamme d'outils liés à son assistant CORTANA et ses accessoires KINECT. Microsoft a affirmé en Octobre 2016 pouvoir être plus performant qu'un être humain avec un taux d'erreur inférieur à 7%
GOOGLE / ALPHABET
Le géant d'INTERNET propose ses propres services intégrés dans la plupart des téléphones et appareils ANDROID (téléphone, TV, voitures...) pour retranscrire de petites portions de textes mais aussi de plus longs documents (voir début de l'article)
APPLE
Après être passé par un partenariat avec NUANCE pour son assistant SIRI, APPLE développe aussi ses propres solutions pour pouvoir gagner en indépendance.
SONY *nouveau*octobre 2016*
Célèbre pour ses consoles de jeux PLAYSTATION, SONY a annoncé se lancer lui aussi à la course au développement de la reconnaissance vocale...
AMAZON *bientôt en France?*
Propose des assistants vocaux "anglais" pour faciliter vos courses, la version française devrait faire son apparition sous peu...
CMU SPHINX
Logiciel gratuit, open source, encore loin des performances des autres outils proposés ci-dessus, il a le mérite d'être gratuit et entièrement modulable pour vos projets. Je le conseille actuellement plus pour détecter des mots clefs dans une liste fermée (commandes par exemple) que pour faire de la dictée vocale.

Les assistants vocaux

De nombreux spécialistes insistent sur la révolution des assistants vocaux qui seront de plus en plus performants. Siri, Cortana, Google Now, sont autant d'assistants qui existent aujourd'hui capable parfois de simuler de vraies petites conversations pour vous aider à trouver le restaurant le plus proche, prendre un rendez-vous

Les prototypes

AVA est en cours de développement :
AVA est un service de sous-titrage temps réel permettant de créer un "mini-réseau" local de transcription : la conversation de chaque locuteur qui s'exprime dans son téléphone est retranscrite sous forme de "chat" (salon de discussion) / "sms" permettant de savoir pour le coup : qui dit quoi... Il est disponible depuis peu en "test" sur les "boutiques" d'applications pour mobiles : à ma surprise il est également disponible en Français, et, encore mieux : vous pouvez lui parler à la fois en anglais ou en français dans une même conversation... Bien que le français soit "supporté", rien d'officiel dans sa documentation ou interface qui reste en anglais, AVA reste un outil en cours de développement, rien d'officiel non plus sur sa future tarification... lien : http://www.ava.me/
Roger voice
Déja évoqué plus haut, très avancé, proposé en plusieurs forfaits, bien qu'il en soit encore à ses début, sachez qu'il est possible de bénéficier des dernière mises à jours à l'avance pour l'améliorer en acceptant une option "beta-testeur" sur votre boutique d'application mobile. lien : https://rogervoice.com/fr/
PEDIUS Nouveau 20/11/2016 disponible en français depuis peu
http://www.pedius.org/fr/
Mozilla
La fondation Mozilla, l'origine du navigateur Firefox, propose aujourd'hui son propre modèle/moteur de reconnaissance vocale libre.
SCRIBOVOX de Maxime RINNA (Nouveau 1er décembre 2017)
Propose de nombreuses solutions dont une solution de sous-titrage temps réel avec le navigateur chrome très performante, mais également du sous-titrage de vidéos youtube et de nombreux documents et liens très instructifs sur les solutions disponibles.
http://scribovox.strikingly.com/

Le principe du perroquet

Les logiciels de reconnaissance vocale fonctionnent mal dans un environnement bruyant (avec fond sonore, de la musique de fond, où plusieurs locuteurs, dont les propos, s'entrecroisent), la qualité des microphones lors de la captation joue un rôle également très important. Dans ces cas-là, on peut utiliser la méthode du "perroquet", utilisée par exemple pour sous-titrer de nombreuses émissions de TV en direct, il s'agit d'un opérateur qui va écouter l'émission et "répéter" à un logiciel de reconnaissance vocal les propos qu'il entend.

Confidentialité

N'hésitez pas à consulter la licence d'utilisation de la solution pour laquelle vous optez. Il faut savoir que les solutions basées sur du "cloud" / calcul dans le "nuage", transmettent pour la plupart vos paroles sur un serveur, même si le transfert est en théorie sécurisé, ainsi que le stockage de ces informations il vaut mieux être prudent si vous échangez des informations trop confidentielles (recettes de cuisines et autres codes de cartes bleues... ). Attention également aux solution "hors lignes", la plupart, même si elles fonctionne sans conenction à Internet, vont échanger des données collectées avec leur serveur dès qu'une connection à Internet est possible. On peut se demander pourquoi ces logiciels récupèrent autant de données. Pour de nomrbeuses raisons, mais surtout pour une cause importante : pouvoir analyser le plus de mots/phrases/type de prononciation possible pour améliorer les futures versions. N'oubliez pas de prévenir vos correspondants que votre échange est suceptible d'être enregistré.

Les principaux acteurs du marché

NUANCE
IBM
MICROSOFT
CAPTOO
APPLE
GOOGLE / ALPHABET
SONY (Depuis octobre 2016)
AMAZON
CMU SPHINX
Mozilla

Techniques et technologies multiples

Outre la "reconnaissance vocale" / "retranscription automatique" de la parole en texte d'autres techniques et technologies existent : la sténotypie, dactylographie, la vélotypie, la langue des signes française (LSF), le langage parlé complété (LPC) pour permettre la compréhension d'un discours, d'un échange téléphonique/vidéo-phonique, une réunion... Vous trouverez plus bas dans ce document un petit comparatif (mots par minutes) et fiche explicative sur ces derniers.

Les plateformes spécialisées pour personnes sourdes et malentendantes

Il existe quelques plateformes permettant à des personnes sourdes-malentendantes de disposer d'une ligne téléphonique et d'un interprète qui pourra au choix : retranscrire sous forme de texte les échanges téléphoniques, conférences, ou sous forme de retranscription LSF (Langue des signes française) / LPC (langage parlé complété). Ces solutions sont malheureusement trop couteuses pour un particulier et souvent mises à dispositions d'entreprises et/ou organismes publics.

TADEO et ACCEO (Delta Process)

Historiquement la plateforme la plus connue et une des plus complête du marché : propose le matériel et les services adaptés pour le téléphone, conférence.
TADEO et ACCEO sont réservés essentiellement aux entreprises du fait de leur coût très élevé. (sur devis)
Lien : http://www.tadeo.fr/

Association ADITUS

Une association qui propose des heures d'appel téléphonique et qui milite pour la mise en place d'une plateforme publique.
Lien : http://www.aditus.fr

Roger Voice (application)

Voir plus haut

AVA (application, prototype)

Voir plus haut

SCRIBOVOX de Maxime RINNA (Services, prototype)

Voir plus haut

IVès (Interactivité Vidéo et Systèmes)

Plateforme internationale téléphonique / vidéo pour personnes sourdes et malentendantes, propose essentiellement ses services aux entreprises / sous la forme d'une marque blanche.
Lien : http://www.ives.fr

Elioz (Partenaire Ivès)

Plateforme pour personnes sourdes/malentendantes pour entreprises et collectivités.
Lien : http://www.elioz.fr

Sociétés spécialisées dans le sous-titrage

MEDIAWEN (partenaire IBM) (sur devis)
Propose une solution professionnelle de sous-titrage, de traduction et de synthèse vocale clef en main ! La société utilise des outils de transcription de voix en texte automatique, mais aussi des professionnels de la retranscription pour un sous-titrage de qualité professionnelle.
VDM Vidéo digital multimedia (sur devis)
DVD, BLUERAY, VOD...
MEDIA SOLUTION (sur devis)
Production institutionnelles, interview, ...
CINEKITA
DVD, Film, interviews, ... (www.cinekita.fr)
Autres
D' autres sociétés et professionnels existent à des tarifs et techniques, technologies très variées...

Organismes et associations

Caasem (collectif des adaptateurs de l'audiovisuel)
Site : www.caasem.fr
CSA Conseil supérieur de l'audiovisuel
Site : www.csa.fr
UNISDA (Union nationale pour l'Insertion Sociale du Déficient Auditif)
Site : www.unisda.org

Société spécialisée dans la vélotypie

System RISP
http://www.systemerisp.com/

EN CHIFFRE

Voix

150 mots en moyenne sont débités avec un maximum de 240 à 250 mots minutes maximum en moyenne.

Vélotypie

Une vitesse de 150 à 180 mots minutes en moyenne
( source : http://users.joomla-host.be/aldsmlyon/index.php?option=com_content&view=article&id=97&Itemid=111 )

Important :

"La vélotypie ne doit pas être confondue avec la sténotypie : le Velotype permet d'orthographier correctement et d'afficher directement le message,
contrairement à la sténotypie qui nécessite un traitement supplémentaire pour présenter un texte rédigé correctement en français."
(Source : http://www.systemerisp.com/velotype.html )

Note : plusieurs sociétés proposent un service de Vélotypie pour sous-titrer émissions, évènements en temps réel.

Sténotypie

Première année : 120 mots minute
Seconde années : 170/180 mots minutes
Après 3 ans d'apprentissage : 240 mots minute
(source : http://www.youtube.com/watch?v=uU2IrM0SUnM )

Reconnaissance vocale

240 à 250 mots par minute
Proche de la vitesse de la parole, légèrement en dessous si on considère que l'on doit corriger quelques fautes d'homophonies.

70 à 80 mots minutes en respectant scrupuleusement une typographie :
On s'approche toutefois de 70 à 80 mots par minutes, la même vitesse de la dactylographie expérimentée dès qu'il s'agit de respecter scrupuleuseument la recopie d'un texte avec des mots nouveaux, une typographie et mise ne page précise. ( Test effectué sur http://www.lecturel.com/clavier/mots-par-minute.php )

Dactylographie

Dactylo expérimenté(e) 350 caractères par minutes soit 70 mots minute.

(Source : http://www.ticken.fr/Teste-Dactylographie.html)

J'ai fait le test ; j'ai obtenu le résultat de 342 caractères par minutes soit 70 mots minute environ.
J'utilise mon clavier dans sa totalité, cette vitesse est généralement associée aux personnes qui utilisent leurs 10 doigts bien placés sur leur clavier, ce qui n'est pas mon cas, j'ai grandi avec l'informatique et adapté la position de mes doigts et mes mains de façon spécifique, particulière, j'utilise bien environ 10 doigts mais pas comme une dactylo, mes mains se baladent, dansent, sur toute la surface du clavier évitant la fatigue, tendinite et autres crampes :o)

Dactylo expérimenté(e) 350 caractères par minutes 70 mots par minutes
Taper avec 10 doigts 250 caractères par minutes 50 mots minute
Taper avec 2 doigts 140 caractères par minutes 28 mots minute
Taper en copiant avec 2 doigts 135 caractères par minutes 27 soit mots minute
(Source : http://www.ticken.fr/Teste-Dactylographie.html)

Vous pouvez connaître votre vitesse de frappe avec ces deux sites :

Taux d'erreur

Les logiciels de reconnaissance vocaux dernière génération affirment descendre en dessous d'un taux d'erreur de 7%. Je constate plutôt du 10% qui a tendance à descendre à 7% dans les meilleures conditions possible (pas de bruit, locution parfaite, le texte dicté est situé dans un contexte lexical clair et sans surprise). La barre des 7% est liée à l'utilisation du Deeplearning / l'apprentissage profond, une méthode logicielle liée à l'intelligence artificielle permettant de "comprendre" les données brutes (ici de la voix) avec une finesse jamais atteinte avant.

Matériel

Pour faire de la reconnaissance vocale il vous faut "absolument" un microphone de très bonne qualité (en général adapté pour la "voix" ), et du calme.
Le logiciel NUANCE de Dragon propose dans la plupart de ses packs un casque/micro spécialement sélectionné pour travailler sur votre machine, bien qu'il soit également possible de passer sur son téléphone pour certaines version (ce dernier devient un microphone sans fil).
Pour plus de confort vous pouvez choisir des casque/micro spécialement conçus pour la dictée vocale.Si vous souhaitez utiliser un dictaphone attention également à la qualité de son microphone.
En général il vous faut un microphone capable de filtrer le son pour capter uniquement la voix humaine tout en évitant de capter les bruit ambiants.
Attention : Il n'est pas possible d'obtenir une retranscription de qualité en posant un microphone premier prix au milieu d'une grande salle de réunion par exemple ! L'idéal étant d'avoir 1 microphone par locuteur (oui, comme à la TV).

Bonnes habitudes

Du calme, pas de bruit en arrière-plan, vérifier votre matériel, parler posément, effectuer un "apprentissage" si le logiciel vous le propose. Pensez à faire des "pauses".
Si vous utilisez un dictaphone, vérifier régulièrement, si possible, la qualité de votre enregistrement pour éviter toutes mauvaises surprises.
Si votre solution nécessite une connection à INTERNET attention de disposer d'une bonne connection.
Pensez à prévenir vos interlocuteurs qu'ils sont enregistrés et l'usage que vous allez faire de l'enregistrement pour éviter tout problème par la suite.

Portée internationale

La retranscription de la voix en texte est également très appréciée pour étudiants, romanciers, chercheurs, journalistes, docteurs.
Imaginez : vous animez une webradio, une série de vidéos, mais lorsque l'on vous cherche sur Google on ne vous trouve pas ?
Améliorez ceci grâce à la reconnaissance vocale ! En effet : fournir un sous-titrage de qualité permettra à Google de vous retrouver plus facilement grace aux mots clefs composant vos sous-titres.
Vous pouvez permettre à vos "auditeurs" de suivre vos contenus même avec le son est coupé ! (pratique dans les transports en communs)
Pensez par exemple aux vidéos Facebook dont le son est coupé par défaut. Pensez également à la portée de vos textes retranscrits qui peuvent désormais être traduits automatiquement en ligne (avec Google Translate par exemple, ou système de traduction automatique de Youtube).

Demain

La plupart des solutions sont parfaites pour "gagner" du temps sur une dictée, mais manque encore un peu de maturité pour un usage en toute transparence, les conditions matérielles, logicielles sont encore immatures pour la plupart pour un sous-titrage de qualité automatique et temps réel pour une personne malentendante.
Au vu des avancées actuelles on peut estimer que d'ici une paire d'années voir moins les solutions actuelles seront arrivées à maturité et deviendront monnaie courante pour les personnes sourdes et malentandantes.

Cédric Vasseur