Cerence
30-60 langues disponibles
Anglais, Français, Arabe, Bulgarien, Chinois, Tchèque, Danois, Néerlandais, Perse, Finnois, Grec, Hébreux, Hongrois, Italien, Indonésien, Japonais, Coréen, Norvégien, Polonais, Portugais, Russe, Slovaque, Espagnol, Suédois, Thaïlandais, Turc, Basque, Bengali, Catalan, Croate, Islandais, Gaélique, Hindi, Malay, Roumain, Tamil, Vietnamien…
Toute la technologie vocale en embarqué avec une solution : CSDK.
Le CSDK (Cerence Software Development Kit) est une technologie vocale en embarqué sous forme de kit de développement logiciel. Avec ces outils, vous serez en mesure d’intégrer différentes fonctionnalités vocales pour créer de nombreux types d’interactions.
Le CSDK contient à ce jour dans sa dernière version :
- Cerence ASR (anciennement VoCon) : un module ASR embarqué (Automatic Speech Recognition, aussi connu comme Speech-to-Text (STT)) pour la transcription vocale.
- Cerence TTS (anciennement Vocalizer) : Un module TTS embarqué (Text-to-Speech) servant à produire des synthèses vocales.
- Cerence NLU : Un module NLU (Natural Language Understanding) pour la compréhension du langage naturel en système embarqué.
- Cerence Audio-Processing : Plusieurs outils compris dans le CSDK pour améliorer et faciliter le traitement audio du microphone.
- Dev Tools : Une suite logiciel fonctionnant sous Windows pour vous aider à développer vos solutions vocales.
Le moteur de transcription vocale VoCon (Speech-to-Text) en embarqué, Cerence ASR.
Cerence ASR (aussi connu comme STT pour Speech-to-Text) est une des solutions de transcription vocale en embarqué les plus performantes. Il s’agit également du moteur vocal anciennement connu comme VoCon par Nuance.
Compris dans le CSDK, il offre des fonctionnalités supérieures, une précision inégalée et des performances élevées pour une variété d’applications qui bénéficient du contrôle de la parole. Conçu comme un moteur modulaire et évolutif, Cerence ASR peut s’adapter à un large éventail d’utilisations embarquées, dans l’industrie, la logistique, le transport…
La grande force de l’ASR Cerence compris dans le CSDK réside dans la notion de dictionnaires poussés. Cette fonctionnalité permet de modifier directement les lexiques compris par le moteur de transcription pour améliorer les performances de l’outil dans des cas particuliers, par exemple des termes propres à vos métiers. Si le mot est mal compris à l’origine, il est possible de retravailler la phonétique associée via les outils d’aide au développement.
Cerence ASR possèdent plusieurs fonctionnalités, parmi elles se trouvent :
- Support large de vocabulaire : Permet la reconnaissance vocale d’importants corpus jusqu’à des millions d’unités.
- Grande fiabilité en environnement bruyant : Capable d’une reconnaissance de haute précision avec un ratio signal/bruit aussi bas que 5dB.
- Dictée vocale embarquée : Reconnaît le texte en dictée libre plus largement que de simples commandes vocales séparées.
- Module d’épellation : Permet d’agir en back-up du système de reconnaissance vocale.
Pour plus d’informations sur les fonctionnalités de Cerence ASR, vous pouvez nous contacter directement pour une présentation détaillée.
L’outil de synthèse vocale Vocalizer (Text-to-Speech) en embarqué et en Cloud, Cerence TTS.
Cerence TTS (anciennement connu comme Vocalizer), également module du CSDK, transforme l’expérience de l’assistant vocal en offrant la synthèse vocale la plus naturelle pour cloud et embarqué. Cerence propose le Cerence Cloud Services et des SDK intégrés pour Windows, Linux, OSX, Android et iOS.
Cerence TTS est une suite de solutions de synthèse vocale permettant de générer une voix de haute qualité à partir de Text-to-Speech et d’audio pré-enregistré. Le logiciel est optimisé pour lire de longs textes de manière naturelle et humaine. De nouveaux algorithmes basés sur des modèles Deep-Learning offrent une plus grande fluidité et une prosodie plus naturelle, apportant une expérience vocale unique.
Cerence TTS possèdent lui aussi plusieurs fonctionnalités telles que :
- Synthèse vocale émotionnelle : Choix entre 4 manières de parler (neutre, enjouée, autoritaire et empathique)
- Styles d’expressions améliorés : Possibilité d’améliorer la synthèse vocale avec des éléments vocaux pré-enregistrés.
- Intelligence contextuelle : Optimise la lecture de certains éléments par un système de tag intelligent pour les adresses, dates, numéro de téléphone…
- Contrôle de la prosodie : Manipulation de la hauteur, du volume, du rythme et du timbre de la voix synthétisée.
Pour plus d’informations sur les fonctionnalités de Cerence TTS, vous pouvez nous contacter directement pour une présentation détaillée.
Les environnements techniques pour l’intégration du CSDK de manière locale dans vos systèmes sont les suivantes :
Liaison et conditionnement des API dépendant du système d’exploitation :
- Android : CSDK sera délivré avec une liaison Java-API compilée dans une archive Android (AAR)
- Win/Linux : CSDK sera dotée d’un C-API Binding
- Apple iOS : CSDK est livré dans une archive cadre ; il sera déployé avec des en-têtes de liaison et de pontage Objective-C pour le support de l’API Swift
Ports et outils standard :
- iOS (version 7.0 et supérieure) : arm64 et x86_64
- Android (version 6.0 et supérieure) : armv7 (32Bit), arm64 et x86_64
- Linux : armv7 (32Bit), arm64 et x86_64
- Windows : x86_64
Code et données :
Fonctionnalité | Taille du code (MB) |
Commande et contrôle basique | 3,2MB |
Toutes les foncitonnalités, plus gros modèle acoustique | 9,5MB |
Données, taille des modèles
Composant | Taille des données par langue |
Modèle acoustique par langue – Gen 4 compact / Gen 5 / Gen 6 |
~900kB / ~4MB / ~6MB |
CLC – Monolingue | 300-7300kB |
CLC – Multilingue | 700-3000kB |
Cas d’usages : Taille des données et utilisation totale de RAM.
Composant | Taille des données par langue | Utilisation totale de RAM |
Reconnaissance de chiffres | 4kB | 1,25MB |
Application basique C&C 100/10K commandes | 10/500kB | 1,3/1,8MB |
Téléphonie avec grammaire + expressions | 0,52MB | 12,6MB |
Points d’intérêts et adresses (USA seulement) | 300MB | 56MB |
Dictée vocale embarquée | 100MB | 100MB |
Composant | Stockage nécessaire (hors-code) | RAM utilisée |
Compact embarqué (système de petite taille) | 10MB en moyenne / 21MB au maximum | 6MB en moyenne / 23MB au maximum |
Pro embarqué (TTS optimisé pour de meilleure capacité comme pour la navigation, lecture de SMS…) | 55MB en moyenne / 131MB au maximum | 14MB en moyenne / 38MB au maximum |
High embarqué (TTS de haute qualité, adapté à toutes utilisations) | 120MB en moyenne / 325MB au maximum | 24MB en moyenne / 69MB au maximum |
Premium embarqué (TTS le plus performant sur modèle de Deep Learning) | 337MB en moyenne / 558MB au maximum | 159MB en moyenne / 198MB au maximum |
La taille du code pour un Cerence TTS avec toutes ses fonctionnalités prend 10 à 13,5MB en fonction de la plateforme d’intégration. Cela peut néanmoins être optimisé selon le choix des langues et des fonctionnalités retenues pour l’utilisation.
Vous souhaitez essayer le CSDK ?
Nous pouvons vous accorder une période d’évaluation !
Le VoiceMarket vous accompagne dans vos projets.
L'état de l'art du vocal en embarqué.
CSDK est la solution phare lorsqu’on parle de technologie vocale embarquée aujourd’hui. Intégrée dans les produits des plus grandes entreprises dans de nombreuses applications, le CSDK ne cesse de développer les interactions Homme-Machine à la voix avec toujours plus de performance.
Solution complète et multi-usage.
Le CSDK se présente sous la forme d’un kit de développement logiciel. Cette nature permet à ses utilisateurs de le moduler à leur convenance pour réaliser leurs projets vocaux. Cette versatilité dans l’utilisation fait du CSDK un véritable outil complet pour la création d’application vocale, d’autant plus en embarqué.
Spin-off d'un leader du vocal moderne.
Cerence est la spin-off du mondialement connu Nuance, un des leaders en technologie vocale. Cette affiliation particulière permet à l’entreprise, et notamment au CSDK, de bénéficier d’une des meilleures expertises technologiques dans le domaine du vocal, gage d’une qualité irréprochable.
Ce que le CSDK peut vous apporter…
Une solution sur-mesure.
Le CSDK est un outil modulable vous offrant différents modules à intégrer selon vos besoins et contraintes. Cette versatilité vous permet de concevoir la solution la plus adaptée à votre projet pour en optimiser ses performances.
Le vocal 100% embarqué.
Principal argument du CSDK, la technologie vocale en embarqué permet de créer des cas d’usages vocaux indépendamment du recours au Cloud. Cette agilité est notamment indispensable dans certaines environnements.
Une technologie multilingue.
Le CSDK est capable, selon ses modules, de gérer de 30 à plus de 60 langues différentes de manière totalement embarquée. La liste exhaustive des langues compatibles se trouve en haut de page dans les informations principales.
Un unique Business Model.
Le fonctionnement économique du CSDK est très simple, il s’agit d’une licence à renouvellement annuel par device et/ou par utilisateur. Le prix d’une licence est disponible sur demande directement au VoiceMarket.