Orientation sur l’élaboration d’API prenant en charge des applications d’assistance vocale

Sur cette page

  1. Principaux composants
  2. Utilisation de SSML
  3. Traduction
  4. Gestion des appels
  5. Développer pour Amazon et Google

Le présent document vise à fournir des recommandations et des conseils sur la conception et la mise en œuvre d’interfaces de programmation d’applications (API) afin de permettre la technologie d’assistant vocal comme Amazon Alexa et Google Voice Assistant. Le public visé est les praticiens techniques comme les développeurs et les architectes. Il ne s’agit en aucun cas d’un document d’orientation ou de politique pour l’élaboration d’application d’assistance vocale et les équipes de développement qui cherchent à élaborer ces types d’applications, qui doit être confirmé par rapport aux lois, politiques et lignes directrices applicables (p. ex., accessibilité, protection des renseignements personnels, langues officielles, sécurité).

1. Principaux composants

L’élaboration d’applications pour assistants vocaux peut sembler intimidant, mais les clients Google et Amazon sont bien adaptés à l’élaboration itérative et à la conception collaborative. Même s’il y a d’autres technologies d’aide vocale, au moment de la rédaction de cet article, la recherche menée pour produire cet article ne couvrait que les deux principales plateformes ayant des écosystèmes de développement matures.

2. Utilisation de SSML

La technologie de reconnaissance vocale existe depuis un certain temps déjà. Les assistants vocaux tirent parti de cette technologie et d’autres encore pour imiter la dynamique réelle de la conversation. Afin de simuler les modèles de langage humain, SSML a été développé pour définir une syntaxe pour le flux de conversation, comme les pauses et le débit de la voix. Afin d’obtenir des résultats de manière claire et convergente, le service Webhook doit fournir des réponses à l’aide de SSML, en particulier pour des données comme des heures, des dates, des devises et des chiffres. La mise en œuvre de SSML doit être testée à fond à l’aide d’une grande variété de jeux d’échantillons de données.

3. Traduction

Normalement, la traduction est effectuée isolément, le traducteur extrapolant le contexte du document seul. La traduction est plus compliquée pour les assistants vocaux. Les conversations avec l’assistant vocal ne sont pas linéaires, et en tant que tel vous perdez beaucoup du contexte essentiel à la traduction. On obtient les meilleurs résultats en demandant à un traducteur de s’asseoir avec un développeur et d’examiner des scénarios. Ensuite, après avoir effectué les changements, on doit consulter le traducteur pour une autre itération dans une variété de scénarios pour vérifier que tout le texte est toujours logique. Il faudra peut-être faire des compromis lorsque les échanges varient entre l’anglais et le français. L’adoption d’un flux commun pour simplifier la solution peut rendre les interactions dans une langue plus difficile que dans l’autre, tandis que la création de la meilleure expérience absolue peut entraîner des solutions effectivement séparées (c’est-à-dire, flux) pour l’anglais et le français.

4. Gestion des appels

Très rapidement dans les tests, les appels d’applications manquantes que d’autres considèrent comme courants seront révélés. Ce delta se développe de façon exponentielle lorsqu’une application vocale est lancée. Les propriétaires d’applications doivent s’attendre à ce que quelqu’un vérifie régulièrement les clients du produit pour les phrases d’appel qui ne sont pas traitées par l’application. Google et Amazon ont tous deux facilité le suivi de ces données anonymes et l’intègrent rapidement dans le flux des appels. Ces mises à jour sont essentielles non seulement pour des raisons de commodité, mais aussi afin de veiller à ce que les applications soient accessibles aux utilisateurs qui pourraient ne pas utiliser les modèles de langage standard pour interagir avec les assistants vocaux. Les testeurs d’accessibilité doivent être introduits pendant les tests bêta afin de veiller à ce que le plus grand nombre d’utilisateurs possible puisse faire appel à l’assistant vocal.

5. Développer pour Amazon et Google

En général, les utilisateurs doivent avoir la même expérience sur différents appareils d’assistants vocaux. En outre, les assistants vocaux Google et Amazon ont les mêmes exigences en matière de support multilingue et de format de réponse SSML. La principale différence entre les différents assistants vocaux est les trousses d’élaboration de logiciels (SDK) qui rendent possible l’intégration entre les clients du produit et les API de voix. Ce point commun signifie que la plupart des services API vocaux doivent être écrits une fois pour toutes les technologies d’assistance vocale ciblées. Il devrait y avoir un contrat de service en couche mince dans le service Webhook pour permettre la communication avec les clients du produit. Cette couche mince peut être mise en œuvre pour n’importe quel produit pris en charge, tandis que le cœur du Webhook reste uniforme sur toutes les plateformes.

Détails de la page

Date de modification :