Des voix synthétisées de haute qualité pour une plate-forme Interface Vocale encore plus performante.
Consolidant le rôle de la voix sur le Web, le Consortium World Wide Web (W3C) publie le langage de synthèse vocale SSML 1.0 (Speech Synthesis Markup Language) en recommandation W3C.
Spécification centrale de la plate-forme Interface Vocale du W3C, SSML 1.0 valorise la voix synthétisée de haute qualité dans les interactions Web. Les applications pour téléphones mobiles et assistant personnels (PDAs), ainsi qu'une multitude de technologies émergentes utilisent SSML 1.0 pour réaliser un contrôle à la fois détaillé et général des aspects importants de la synthèse de la parole tels que prononciation, volume et ton.
A l'instar des deux autres recommandations publiées par le groupe de travail Navigateur Vocal du W3C (VoiceXML 2.0 et Grammaire de Reconnaissance de la Parole - SRGS), SSML 1.0 est conçue pour s'intégrer avec les autres technologies Web, et est interopérable sur toutes les structures capables de synthétiser des données sur le Web.
« J'applaudis les progrès réalisés par le groupe de travail car ils ont rendu possible un meilleur accès aux services téléphoniques par l'utilisation de technologies Web », déclare Tim Berners-Lee, directeur du W3C, qui donnera une conférence plénière au congrès SpeechTEK la semaine prochaine. « Les sociétés peuvent maintenant offrir un accès Web à leurs clients à la fois par téléphone et à partir d'un ordinateur. »
Avec un nombre de lignes téléphoniques et de téléphones portables estimé à plus d'un milliard dans le monde entier, les spécifications de la plate-forme Interface Vocale du W3C vont permettre à un nombre considérable de personnes d'utiliser n'importe quel téléphone pour interagir avec des services Web spécialement conçus, à partir d'un clavier téléphonique, de commandes vocales, d'annonces préenregistrées et de voix et musiques synthétisées.
Une recommandation W3C est acceptée par l'industrie et la communauté Web dans son ensemble comme un standard Web. Développée par un groupe de travail W3C, chaque recommandation indique que la spécification est stable et qu'elle a été revue par les membres W3C. Les recommandations W3C favorisent l'interopérabilité des technologies du Web, grâce au consensus obtenu par le groupe de travail concerné.
La prononciation est l'un des principaux défis relevé par SSML pour améliorer l'utilisation de la voix sur le Web. Par exemple, comment prononcer « 1/2 » ? Sans contexte supplémentaire, personne ne sait s'il faut dire « une moitié » ou « 2 janvier » ou « premier février » ou encore « un sur deux ».
La spécification SSML 1.0 utilise cet exemple simple pour illustrer les quelques défis survenant lors de la transformation d'un texte général en une conversation synthétisée qui a du sens. Le vocabulaire SSML permet un contrôle de la prononciation de phonèmes, de mots, ou de phrases entières. Ce type de contrôle est nécessaire pour satisfaire les exigences des applications vocales, ainsi que les demandes des éditeurs de dialogues.
« SSML a été développée à partir des travaux réalisés par les pionniers de la synthèse de parole. Elle offre aux développeurs d'applications vocales des moyens à la fois puissants et souples pour créer des applications combinant voix de synthèse de très bonne qualité et annonces préenregistrées », explique Dave Raggett, responsable de l'activité W3C sur les navigateurs vocaux, et ingénieur chez Canon. « SSML permet à des services fondés sur VoiceXML d'être accessibles à partir de téléscripteurs pour les personnes souffrant d'handicap oral ou auditif. De plus, SSML promet d'autres utilisations au delà de VoiceXML dans des domaines de standardisation futurs tel que l'interaction multimodale. »
Tout comme XHTML, SSML est un langage de balises fondé sur le standard XML. Un document SSML peut être utilisé en soi ou alors être inclus dans un autre document XML de manière à mieux traduire la voix synthétisée.
Bien sûr, SSML est particulièrement bien adaptée pour être utilisée dans une application interactive de voix contrôlée par VoiceXML.
Le groupe Navigateur Vocal a travaillé étroitement avec les autres groupes du W3C pour s'assurer que la conception de SSML 1.0 soit cohérente avec les principes d'accessibilité, d'internationalisation, et de l'architecture Web en général.
De fait, une des applications importantes de SSML est de permettre aux personnes souffrant d'handicap auditif d'utiliser des téléscripteurs, sachant que le même contenu peut aussi être entendu sur un téléphone ordinaire. SSML 1.0 est également compatible avec les autres travaux du W3C sur la prononciation des pages Web avec les feuilles de style (CSS). Le groupe de travail CSS développe actuellement un module de la spécification CSS3 définissant les méthodes de synthèse vocale des documents XML à l'aide du langage SSML
Le groupe de travail Navigateur Vocal du W3C a particulièrement bien réussi à faire adopter ses spécifications avant qu'elles n'atteignent le statut de recommandation. Une collection de tests, disponible dans le rapport d'implémentation SSLML de juillet 2004, a permis d'assurer un comportement cohérent et de qualité parmi les nombreuses implémentations de SSML 1.0. Les participants du groupe de travail ayant déjà implémenté SSML 1.0 sont : Aspect Communications, France Telecom, Hewlett-Packard, IBM, Loquendo, Microsoft, MITRE, Nuance Communications, SAP, ScanSoft, Sun Microsystems, VoiceGenie Technologies, Voxeo et Voxpilot.
Les efforts du groupe de travail vont maintenant se porter sur les spécifications restantes de la plate-forme Interface Vocale. « Après VoiceXML 2.0 et la grammaire de reconnaissance de la parole (SRGS), SSML est le troisième langage de la plate-forme Interface Vocale à devenir une recommandation W3C », indique Jim Larson, responsable chez Intel de l'interaction homme-machine et également responsable du groupe de travail Navigateur Vocal. « Nous finalisons actuellement les autres langages de cette plate-forme tels que VoiceXML 2.1, l'Interprétation Sémantique pour la Reconnaissance de la Parole, et le Contrôle d'Appel de Navigateur Vocal (CCXML). »
Le groupe de travail Navigateur Vocal du W3C fait partie des plus grands et des plus actifs au sein du W3C. Il est composé des membres suivants : Aspect Communications, BeVocal, Brooktrout Technology, Canon, Comverse Technology, Convedia, Electronic Data Systems, France Telecom, Genesys Telecommunications Laboratories, HeyAnita, Hitachi, Hewlett-Packard, IBM, Intel, IWA-HWG, Korea Association of Information and Telecommunication, Loquendo, Microsoft, MITRE, Mitsubishi Electric, Motorola, Nokia, Nuance Communications, Openstream, SAP, ScanSoft, Siemens, Sun Microsystems, Syntellect, Tellme Networks, Verascape, Vocalocity, VoiceGenie Technologies, Voxeo et Voxpilot.
Le Consortium World Wide Web (W3C) a été créé pour mener le Web à son plein potentiel en développant des protocoles communs qui facilitent son évolution et assurent son interopérabilité. C'est un consortium industriel international, piloté conjointement par le Groupement Européen de Recherche en Informatique et en Mathématiques (ERCIM) basé en France, l'Université de Keio au Japon, et le Laboratoire d'Informatique et d'Intelligence Artificielle du MIT (MIT CSAIL) aux Etats-Unis.
Les services fournis par le Consortium se composent de :
- la constitution et la mise à disposition d'informations concernant le World Wide Web à destination des développeurs et des utilisateurs ;
- la mise en oeuvre de logiciels permettant d'incorporer et de promouvoir les standards ;
- la mise en place de diverses applications prototypes visant à démontrer l'utilisation des nouvelles technologies.
Aujourd'hui, le Consortium compte près de 400 membres. Pour plus d'informations sur le Consortium World Wide Web, consultez l'adresse suivante : http://www.w3.org/.
Pour en savoir plus :
- La liste des témoignages de soutien,
- L'activité Navigateur Vocal du W3C.