Cerence

30-60 langues disponibles

Anglais, Français, Arabe, Bulgarien, Chinois, Tchèque, Danois, Néerlandais, Perse, Finnois, Grec, Hébreux, Hongrois, Italien, Indonésien, Japonais, Coréen, Norvégien, Polonais, Portugais, Russe, Slovaque, Espagnol, Suédois, Thaïlandais, Turc, Basque, Bengali, Catalan, Croate, Islandais, Gaélique, Hindi, Malay, Roumain, Tamil, Vietnamien…

Kit Dévelopement Logiciel
STT / TTS / WUW…
Technologie embarquée
Multilingue

Toute la technologie vocale en embarqué avec une solution : CSDK.

Le CSDK (Cerence Software Development Kit) est une technologie vocale en embarqué sous forme de kit de développement logiciel. Avec ces outils, vous serez en mesure d’intégrer différentes fonctionnalités vocales pour créer de nombreux types d’interactions.

Le CSDK contient à ce jour dans sa dernière version :

  • Cerence ASR (anciennement VoCon) : un module ASR embarqué (Automatic Speech Recognition, aussi connu comme Speech-to-Text (STT)) pour la transcription vocale.
  • Cerence TTS (anciennement Vocalizer) : Un module TTS embarqué (Text-to-Speech) servant à produire des synthèses vocales.
  • Cerence NLU : Un module NLU (Natural Language Understanding) pour la compréhension du langage naturel en système embarqué.
  • Cerence Audio-Processing : Plusieurs outils compris dans le CSDK pour améliorer et faciliter le traitement audio du microphone.
  • Dev Tools : Une suite logiciel fonctionnant sous Windows pour vous aider à développer vos solutions vocales.

Le moteur de transcription vocale VoCon (Speech-to-Text) en embarqué, Cerence ASR.

Cerence ASR (aussi connu comme STT pour Speech-to-Text) est une des solutions de transcription vocale en embarqué les plus performantes. Il s’agit également du moteur vocal anciennement connu comme VoCon par Nuance.

Compris dans le CSDK, il offre des fonctionnalités supérieures, une précision inégalée et des performances élevées pour une variété d’applications qui bénéficient du contrôle de la parole. Conçu comme un moteur modulaire et évolutif, Cerence ASR peut s’adapter à un large éventail d’utilisations embarquées, dans l’industrie, la logistique, le transport…

La grande force de l’ASR Cerence compris dans le CSDK réside dans la notion de dictionnaires poussés. Cette fonctionnalité permet de modifier directement les lexiques compris par le moteur de transcription pour améliorer les performances de l’outil dans des cas particuliers, par exemple des termes propres à vos métiers. Si le mot est mal compris à l’origine, il est possible de retravailler la phonétique associée via les outils d’aide au développement.

Cerence ASR possèdent plusieurs fonctionnalités, parmi elles se trouvent :

  • Support large de vocabulaire : Permet la reconnaissance vocale d’importants corpus jusqu’à des millions d’unités.
  • Grande fiabilité en environnement bruyant : Capable d’une reconnaissance de haute précision avec un ratio signal/bruit aussi bas que 5dB.
  • Dictée vocale embarquée : Reconnaît le texte en dictée libre plus largement que de simples commandes vocales séparées.
  • Module d’épellation : Permet d’agir en back-up du système de reconnaissance vocale.

Pour plus d’informations sur les fonctionnalités de Cerence ASR, vous pouvez nous contacter directement pour une présentation détaillée.

L’outil de synthèse vocale Vocalizer (Text-to-Speech) en embarqué et en Cloud, Cerence TTS.

Cerence TTS (anciennement connu comme Vocalizer), également module du CSDK, transforme l’expérience de l’assistant vocal en offrant la synthèse vocale la plus naturelle pour cloud et embarqué. Cerence propose le Cerence Cloud Services et des SDK intégrés pour Windows, Linux, OSX, Android et iOS.

Cerence TTS est une suite de solutions de synthèse vocale permettant de générer une voix de haute qualité à partir de Text-to-Speech et d’audio pré-enregistré. Le logiciel est optimisé pour lire de longs textes de manière naturelle et humaine. De nouveaux algorithmes basés sur des modèles Deep-Learning offrent une plus grande fluidité et une prosodie plus naturelle, apportant une expérience vocale unique. 

Cerence TTS possèdent lui aussi plusieurs fonctionnalités telles que :

  • Synthèse vocale émotionnelle : Choix entre 4 manières de parler (neutre, enjouée, autoritaire et empathique)
  • Styles d’expressions améliorés : Possibilité d’améliorer la synthèse vocale avec des éléments vocaux pré-enregistrés.
  • Intelligence contextuelle : Optimise la lecture de certains éléments par un système de tag intelligent pour les adresses, dates, numéro de téléphone…
  • Contrôle de la prosodie : Manipulation de la hauteur, du volume, du rythme et du timbre de la voix synthétisée.

Pour plus d’informations sur les fonctionnalités de Cerence TTS, vous pouvez nous contacter directement pour une présentation détaillée. 

 

Les environnements techniques pour l’intégration du CSDK de manière locale dans vos systèmes sont les suivantes :

Liaison et conditionnement des API dépendant du système d’exploitation : 

  • Android : CSDK sera délivré avec une liaison Java-API compilée dans une archive Android (AAR)
  • Win/Linux : CSDK sera dotée d’un C-API Binding
  • Apple iOS : CSDK est livré dans une archive cadre ; il sera déployé avec des en-têtes de liaison et de pontage Objective-C pour le support de l’API Swift

Ports et outils standard : 

  • iOS (version 7.0 et supérieure) : arm64 et x86_64
  • Android (version 6.0 et supérieure) : armv7 (32Bit), arm64 et x86_64
  • Linux : armv7 (32Bit), arm64 et x86_64
  • Windows : x86_64

Code et données :

 
FonctionnalitéTaille du code (MB)
Commande et contrôle basique3,2MB
Toutes les foncitonnalités, plus gros modèle acoustique9,5MB

 

Données, taille des modèles

 
ComposantTaille des données par langue

Modèle acoustique par langue –

Gen 4 compact / Gen 5 / Gen 6

~900kB / ~4MB / ~6MB
CLC – Monolingue300-7300kB
CLC – Multilingue700-3000kB

 

Cas d’usages : Taille des données et utilisation totale de RAM.

 
ComposantTaille des données par langueUtilisation totale de RAM
Reconnaissance de chiffres4kB1,25MB
Application basique C&C 100/10K commandes10/500kB1,3/1,8MB
Téléphonie avec grammaire + expressions0,52MB12,6MB
Points d’intérêts et adresses (USA seulement)300MB56MB
Dictée vocale embarquée100MB100MB

 

 

 
ComposantStockage nécessaire (hors-code)RAM utilisée
Compact embarqué (système de petite taille)10MB en moyenne / 21MB au maximum6MB en moyenne / 23MB au maximum
Pro embarqué (TTS optimisé pour de meilleure capacité comme pour la navigation, lecture de SMS…)55MB en moyenne / 131MB au maximum14MB en moyenne / 38MB au maximum
High embarqué (TTS de haute qualité, adapté à toutes utilisations)120MB en moyenne / 325MB au maximum24MB en moyenne / 69MB au maximum
Premium embarqué (TTS le plus performant sur modèle de Deep Learning)337MB en moyenne / 558MB au maximum159MB en moyenne / 198MB au maximum

La taille du code pour un Cerence TTS avec toutes ses fonctionnalités prend 10 à 13,5MB en fonction de la plateforme d’intégration. Cela peut néanmoins être optimisé selon le choix des langues et des fonctionnalités retenues pour l’utilisation.

La documentation nécessaire ainsi que toutes les informations techniques détaillées sur le CSDK et ses modules sont disponibles sur demande. Nous pouvons également vous faire une explication commentée de ces documents techniques pour vous accompagner dans leur compréhension et utilisation.

Vous souhaitez essayer le CSDK ?

Nous pouvons vous accorder une période d’évaluation !

Le VoiceMarket vous accompagne dans vos projets.

b3lineicon|b3icon-comments||Comments
L’état de l’art en matière de technologies vocales embarquées.
b3lineicon|b3icon-molecule||Molecule
Une solution versatile, multi-usage et complète.
b3lineicon|b3icon-medal||Medal
Spin-off de Nuance, Cerence s’affirme comme un des leaders du vocal.

L'état de l'art du vocal en embarqué.

CSDK est la solution phare lorsqu’on parle de technologie vocale embarquée aujourd’hui. Intégrée dans les produits des plus grandes entreprises dans de nombreuses applications, le CSDK ne cesse de développer les interactions Homme-Machine à la voix avec toujours plus de performance.

Solution complète et multi-usage.

Le CSDK se présente sous la forme d’un kit de développement logiciel. Cette nature permet à ses utilisateurs de le moduler à leur convenance pour réaliser leurs projets vocaux. Cette versatilité dans l’utilisation fait du CSDK un véritable outil complet pour la création d’application vocale, d’autant plus en embarqué.

Spin-off d'un leader du vocal moderne.

Cerence est la spin-off du mondialement connu Nuance, un des leaders en technologie vocale. Cette affiliation particulière permet à l’entreprise, et notamment au CSDK, de bénéficier d’une des meilleures expertises technologiques dans le domaine du vocal, gage d’une qualité irréprochable.

Ce que le CSDK peut vous apporter…

b3lineicon|b3icon-atom||Atom

Une solution sur-mesure.

Le CSDK est un outil modulable vous offrant différents modules à intégrer selon vos besoins et contraintes. Cette versatilité vous permet de concevoir la solution la plus adaptée à votre projet pour en optimiser ses performances.

b3lineicon|b3icon-gear||Gear

Le vocal 100% embarqué.

Principal argument du CSDK, la technologie vocale en embarqué permet de créer des cas d’usages vocaux indépendamment du recours au Cloud. Cette agilité est notamment indispensable dans certaines environnements.

b3lineicon|b3icon-globe||Globe

Une technologie multilingue.

Le CSDK est capable, selon ses modules, de gérer de 30 à plus de 60 langues différentes de manière totalement embarquée. La liste exhaustive des langues compatibles se trouve en haut de page dans les informations principales.

b3lineicon|b3icon-browser-cart||Browser Cart

Un unique Business Model.

Le fonctionnement économique du CSDK est très simple, il s’agit d’une licence à renouvellement annuel par device et/ou par utilisateur. Le prix d’une licence est disponible sur demande directement au VoiceMarket.

Vous souhaitez échanger au sujet du CSDK?

6 + 1 =

Nous sommes à votre écoute pour toute demande !