
Les assistants vocaux sont très tendance, du tertiaire à l’industrie 4.0.Face aux offres d’Amazon et Google, Nicolas Baron, directeur commercial de Snips, nous explique pourquoi sa solution est mieux à même de protéger la vie privée des clients et de garantir aux entreprises la maîtrise de leur offre commerciale.
Qui est Snips et quelle est sa vocation ?
Nicolas Baron – Snips est un éditeur de logiciels français, mais très international, de par les différents cas d’usage et clients avec lesquels nous discutons. Nous créons des interfaces vocales personnalisées pour les cas d’usage de nos clients.
C’est quoi une interface vocale ? Vous créez des assistants du genre OK Google, Amazon Alexa ou Apple Siri ?
N. B. – Non. Il faut distinguer l’interface vocale, qui est l’interface homme-machine, au sens propre du terme, de l’assistant vocal, qui est la solution finalisée qu’un client « corporate » met à disposition de ses propres clients.
Nous, nous créons l’interface vocale, c’est vraiment ce qui va entendre et interpréter les requêtes émises. Elle intervient en tant que sous-couche de l’assistant.
Quand on parle d’un acteur cloud américain, on est sur un assistant au sens complet, c’est-à-dire qu’il y a le hardware, avec la partie microphone, et la partie audio « front-end », qui nettoie le flux audio.
Il y a évidemment à l’intérieur l’interface vocale qui interprète (ça c’est notre partie), et ensuite, il y a l’accès à ce qu’on appelle le « back-end » : des datacenters immenses qui traitent les données et envoient les requêtes vers différentes bases de données, par exemple celle de la RATP pour savoir quand arrive le prochain bus, ou celle d’une compagnie du type de Météo-France pour accéder aux informations météorologiques.
Quand on parle du produit Google ou Amazon, c’est un assistant complet, au sens matériel, logiciel et base d’information. Quand on parle d’interface vocale, Snips pourrait tout à fait faire partie des assistants Google ou Alexa, comme sous-couche logicielle qui entend, interprète et délivre ce qui a été traité.
C’est la nuance interface/assistant. Nos clients créent des assistants vocaux, nous mettons à leur disposition des interfaces vocales.
Vous ne travaillez donc que pour des entreprises ?
N. B. – Effectivement, Snips ne fait que du B2B, contrairement aux assistants vocaux qui, eux, sont orientés vers l’utilisateur.
Notre travail se fait uniquement vers les entreprises qui créent des assistants vocaux, et nous faisons cela en marque blanche, nous permettons à tous nos clients de se créer leur assistant vocal, avec leur propre identité de marque si c’est leur souhait. Demain, la Fnac pourrait vouloir sortir un assistant vocal équivalent à celui d’Amazon et nous solliciter comme sous-couche masquée de l’interface vocale de son assistant, par exemple.
Snips indique que sa solution repose sur l’intelligence artificielle. Quel en est le domaine d’expertise ?
N. B. – Notre travail consiste à nous assurer que votre application comprend l’intention exprimée.
Ça, c’est ce que nous livrons : la phrase entendue, la phrase comprise, l’intention détectée et les données qu’elle contient.
L’appli du client récupère ces données et en fait une requête vers la base de données dans laquelle sont recensées toutes les réponses.
Sur des cas industriels tertiaires, par exemple des volets, ça peut juste être « Ferme le grand volet de 50 % dans le salon ».
En fonction des cas d’usage, les volets étant généralement contrôlés par un microcontrôleur, il faut donc transformer cette intention, par exemple en commande « n° 4 ».
Quel est l’intérêt pour une entreprise de faire appel à une interface vocale ?
N. B. – Dans le tertiaire, nous voyons deux grands cas d’usage pour les assistants vocaux en général. Le premier, c’est évidemment pour une marque de rajeunir son image, d’améliorer l’expérience multicanale qu’elle offre à ses clients, mais aussi d’augmenter ses ventes.
Le deuxième intérêt concerne des cas industriels : la voix permet d’aller chercher de la productivité, non pas une augmentation des ventes, mais plutôt un retour sur investissement, au sens où, grâce à la voix, je mets à disposition des opérateurs (par exemple les gens qui s’occupent des GTB, GTC, la maintenance générale, etc.) une interface qui leur permet d’être plus productifs et d’augmenter leur sécurité en fonction des cas d’usage, puisqu’ils peuvent travailler les mains libres.
Je suis un installateur électricien ou un mainteneur, j’ai ma propre application développée et je demande les fiches produits, je parle au système pendant que je manipule un équipement.
Si je résume, il y a une première approche orientée « augmentation du revenu et de l’expérience », et la seconde, plus industrielle, orientée retour sur investissement, sécurité, productivité et, bien évidemment, expérience aussi.
Dans le monde professionnel, il y a des cas d’usage qui concernent les collaborateurs dans les bureaux, et d’autres qui s’adressent aux « opérateurs augmentés », donc à l’industrie 4.0.
Mais pourquoi une entreprise choisirait-elle la solution Snips plutôt que celles des Gafam comme Google Home, Amazon Alexa, Apple Siri ou même Microsoft Cortana ?
N. B. – Une des grosses particularités de Snips, qui nous différencie fortement des acteurs cloud, c’est que la voix est traitée localement, et donc peut fonctionner sans connexion.
Bien évidemment, l’appli business dans laquelle l’interface vocale est intégrée pourrait avoir besoin de se connecter à un serveur sur lequel se trouvent des fiches produits, par exemple.
Mais si ces fiches sont embarquées, on accède aux informations sans connectivité, ce qui, pour prendre un exemple, est déjà intéressant dans le monde de la maintenance – où les équipements sont souvent en sous-sol plutôt qu’en étage, et où le réseau ne passe pas toujours. Le fonctionnement offline prend tout son sens.
Votre solution n’est donc pas en concurrence frontale avec celle des Gafa ?
N. B. – En fait, notre approche n’est pas concurrentielle, mais complémentaire.
Eux donnent une quantité d’informations énorme que l’on n’a pas vocation à traiter – la météo, etc. Nous, premièrement, nous positionnons sur le local, le « command and control ».
Deuxièmement, on se focalise sur la confidentialité des données.
Troisièmement, on a un business model pour un coût du produit « sorti d’usine », sans coût variable post-vente, ce qui n’est pas le cas chez les autres, qui ont un coût (pour le fabricant) chaque fois qu’on les sollicite. Il y a de la place pour des solutions hybrides.
Justement, donnez-nous un exemple de domotique hybride où les deux approches vocales (locale et cloud) se justifieraient pour le consommateur ou pour le fabricant.
N. B. – J’aime bien prendre l’exemple du réfrigérateur. On peut vouloir baisser sa température à la voix, ou même lancer la fabrication de glaçons l’été, cela peut parfaitement se gérer en local.
Pas besoin de faire le tour du monde pour gérer son frigo ou ses volets !
Mais si un fabricant de réfrigérateurs comme Samsung s’associe à une boutique d’alimentation en ligne pour que le consommateur ajoute des produits à sa shopping list et les commande, Samsung peut vouloir gérer ces informations et en tirer le fruit (car ces données se valorisent…) sans avoir à passer par Google et Amazon.
De même, Nespresso n’a pas forcément envie que les gens commandent leurs capsules de café chez Amazon, mais plutôt directement via sa plateforme de e-commerce.
Dans ce cas d’usage, l’appareil est connecté à Internet, oui, mais en utilisant la technologie de reconnaissance vocale de Snips : on reste dans le réseau de données du fabricant.
Troisièmement cas d’usage, je suis dans ma cuisine le matin et je demande la météo ou le prochain horaire de passage du bus. Snips n’a pas vocation à développer ce genre de service, et cela fait sens d’envoyer la voix vers ceux qui intègrent déjà des API météo.
Voilà pourquoi je pense que l’expérience est hybride, et que Snips peut-être complémentaire des acteurs cloud.
Commentaires