Le Saint Graal de la reconnaissance vocale ne consiste pas seulement à obtenir un ordinateur pour transcrire les mots que vous dites, mais pour vraiment comprendre ce que signifient ces mots. Le contexte est la chose la plus difficile à « obtenir » pour les programmes qui traitent et essaient d’analyser le langage humain. Craquer quelque chose comme une reconnaissance vocale efficace et cohérente qui est contextuellement appropriée changerait fondamentalement la façon dont nous interagissons avec notre environnement électronique. Il ne devrait donc pas être surprenant que la vidéo suivante de Soundhound retienne beaucoup l’attention :
Au moment d’écrire ces lignes, la vidéo a obtenu près d’un million de vues en deux jours, était en première page de Reddit et fait vibrer la technosphère. La vidéo est une démonstration par le PDG de Soundhound, Keyvan Mohajer, de leur nouveau programme d’assistant numérique Hound. Le programme semble afficher un certain nombre de ralentisseurs de reconnaissance vocale qui ont bloqué de tels efforts dans le passé.
Le programme gère adroitement les questions longues et compliquées. Il comprend l’intention des enquêtes grâce à des indices contextuels, sans confondre l’État de Washington avec Washington, DC Il est capable de modifier les questions précédentes avec de nouveaux critères sans avoir à reformuler la question d’origine. Et il fait tout cela très, très rapidement.
Auparavant, Soundhound était surtout connu comme l’application non-Shazam pour identifier la musique. Contrairement à Shazam, l’application Soundhound vous a permis de fredonner une mélodie pour que l’application puisse l’identifier. Avec l’avènement de Hound, Soundhound semble annoncer son intention de concurrencer Cortana de Microsoft, Google Now et Siri d’Apple sur le marché en pleine croissance des applications d’assistants numériques.
L’application, qui était en développement depuis neuf ans, n’est, comme l’admet la description YouTube de la vidéo, pas parfaite. Comme l’a découvert Popular Science, elle a du mal avec certaines différences très subtiles dans les demandes de renseignements, comme celles entre « Où puis-je déjeuner près de chez moi ? » et « Où est l’endroit le plus proche pour déjeuner ? » (Il a répondu à « Quelle est l’option la plus proche et la moins chère pour le déjeuner ? » avec des résultats solides.) Il a eu du mal à organiser des réunions, et ses options de traduction sont sommaires, ne fournissant pas les prononciations nécessaires.
Mohajer est conscient de ces lacunes, déclarant qu’il veut pouvoir faire des choses comme (verbalement) nourrir Hound une série d’ingrédients et le faire cracher des recettes. Soundhound fournit également des outils « Houndify » qui permettront aux développeurs d’interfaces d’intégrer des commandes verbales dans leurs programmes.
La chose la plus importante à réaliser est que Hound semble être un autre pas en avant dans l’effort de lisser l’interaction humaine avec les ordinateurs et autres appareils électroniques. Quel que soit l’avenir, il s’annonce prometteur. Nous avons parcouru un long chemin depuis Les Simpsons a fait un bâillon jetable sur l’incapacité de l’Apple Newton à faire ce pour quoi il a été conçu. Manger Martha ? Bah !