Alexa, comment fonctionne siri? Commande vocale expliqué

On peut parler à presque tous nos gadgets maintenant, mais exactement comment ça marche? Lorsque vous demandez « Quelle est cette chanson? » Ou dites « appeler maman », un miracle de la technologie moderne se passe. Et alors qu`il se sent comme il est sur le bord de coupe, cette idée de parler à des appareils remonte à des décennies - presque aussi loin que jetpacks dans la science-fiction!

Aujourd`hui, la majeure partie de l`attention accordée à l`informatique vocale est axée sur les smartphones. Apple, Amazon, Microsoft et Google sont au sommet de la chaîne, chacun offrant sa propre façon de parler à l`électronique. Vous connu qui ils sont: Siri, Alexa, Cortana, et l`innommable « Ok, Google » être. Ce qui soulève une grande question ...

Comment un appareil prend paroles et les transformer en commandes qu`il peut comprendre? En substance, il se résume à l`appariement modèle et de faire des prédictions basées sur ces modèles. Plus précisément, la reconnaissance vocale est une tâche complexe et vient de Modélisation acoustique et Modélisation de la langue.

Modélisation acoustique: Waveforms & Téléphones

forme d`onde

Acoustique La modélisation est le processus de prendre une forme d`onde de la parole et de l`analyse à l`aide de modèles statistiques. La méthode la plus courante est Modélisation de Markov cachés, qui est utilisé dans ce qu`on appelle la modélisation de prononciation pour briser la parole en plusieurs composantes appelés téléphones (à ne pas confondre avec les appareils téléphoniques réels). Microsoft a été un chercheur de premier plan dans ce domaine depuis de nombreuses années.

Hidden Markov Modélisation: Probabilité Etats

La modélisation de Markov caché est un modèle mathématique prédictif lorsque l`état actuel est déterminé par l`analyse de la sortie. Wikipédia a un exemple avec deux amis.

Video: Google : Reconnaissance Vocale sur l'application Recherche Google (Alternative à Siri)

Imaginez deux amis - amis locaux et ami à distance - qui vivent dans différentes villes. Local Friend veut savoir ce que le temps est comme l`endroit où vit ami à distance, mais ami à distance veut seulement parler de ce qu`il a fait ce jour-là: promenade, magasin, ou propre. La probabilité de chaque activité en fonction de la météo du jour.

Modélisation de Markov cachés

Imaginez que cela est la seule information disponible. Avec elle, Local Friend peut trouver des tendances dans la façon dont le temps a changé de jour en jour, et l`utilisation de ces tendances, elle peut commencer à faire des suppositions éclairées sur ce que le temps d`aujourd`hui sera basé sur l`activité de son amie hier. (Vous pouvez voir un diagramme du système ci-dessus.)

Si vous voulez un exemple plus complexe, consultez cet exemple sur Matlab. En reconnaissance vocale, ce modèle consiste essentiellement à comparer chaque partie de la forme d`onde contre ce qui vient avant et ce qui vient après, et un dictionnaire de formes d`ondes pour comprendre ce qui se dit.

Essentiellement, si vous faites un son « th », il va vérifier que le son contre les sons les plus probables qui viennent généralement avant et après. Peut-être un moyen de contrôle contre le son « e », le « à » son, et ainsi de suite. Lorsque le motif correspond correctement, il a alors votre mot entier. Ceci est une simplification, mais vous pouvez voir l`explication entière de Microsoft ici.

Modeling Language: Plus que le son

La modélisation acoustique va un long chemin en aidant votre ordinateur, vous comprenez, mais qu`en est-homonymie et les variations régionales de prononciation? C`est là le langage de modélisation entre en jeu. Google a conduit beaucoup de recherches dans ce domaine, notamment par l`utilisation de N-gramme Modélisation.

Lorsque Google tente de comprendre votre discours, il le fait à partir de modèles issus de sa banque massive de transcriptions Recherche vocale et YouTube. Toutes ces légendes vidéo hilarante mauvaises ont effectivement aidé Google à faire évoluer leurs dictionnaires. , Ils ont utilisé aussi le GOOG-411 parti de recueillir des informations sur la façon dont les gens parlent.

shutterstock_70757203

Toute cette collection de langue a créé une vaste gamme de prononciations et dialectes, qui a fait un dictionnaire robuste de mots et comment ils sonnent. Cela permet des correspondances qui ont un taux d`erreur considérablement réduit que l`appariement de la force brute en fonction des probabilités brutes. Vous pouvez lire un bref document décrivant leurs méthodes ici.

Alors que Google est un leader dans ce domaine, il existe d`autres modèles mathématiques développés, y compris les modèles spatiaux continus et des modèles de langage de position, qui sont des techniques plus avancées nés de la recherche en intelligence artificielle. Ces méthodes sont basées sur la réplication du genre de raisonnement les humains lors de l`écoute de l`autre. Ceux-ci sont beaucoup plus avancés en termes de la technologie derrière eux, mais aussi les mathématiques et la programmation nécessaires pour tracer ces modèles.

N-Gram Modélisation: Probabilité rencontre mémoire

travaux de modélisation N-gramme basé sur des probabilités, mais il utilise un dictionnaire existant de mots pour créer un arbre de branchement de possibilités, qui est ensuite lissée pour un souci d`efficacité. D`une certaine manière, cela signifie que la modélisation N-gramme élimine beaucoup de l`incertitude dans la modélisation de Markov caché précité.

Comme indiqué plus haut, la force de cette méthode est d`avoir un grand dictionnaire de mots et usage, non seulement primitive des sons. Cela donne au programme la capacité de faire la différence entre les homophones, comme « battre » et « betterave ». Il est contextuelle, ce qui signifie que lorsque vous parlez des scores de la nuit dernière, le programme ne tire pas des mots sur bortsch.

Mais ces modèles sont en réalité pas le meilleur pour la langue, principalement en raison de problèmes avec des probabilités de mots dans des phrases plus longues. Comme vous ajoutez plus de mots à une phrase, ce modèle devient un peu hors que vos premiers mots sont peu susceptibles d`avoir chargé tout nécessaire pour votre pensée complète.

Cependant, il est simple et facile à mettre en œuvre, ce qui en fait un grand match pour une entreprise comme Google qui aime lancer des serveurs à des problèmes de calcul. Vous pouvez faire la lecture plus sur Modelieng N-gramme à l`Université de Washington, ou vous pouvez regarder une conférence à Coursera.

Crier à Nuages: Applications & Dispositifs

Tous ceux qui ont utilisé Siri connaît la frustration d`une connexion réseau lente. Ceci est parce que vos commandes à Siri sont envoyés sur le réseau à décoder par Apple. Cortana pour téléphone Windows nécessite également une connexion réseau pour fonctionner correctement. En revanche, cependant, Echo d`Amazon est juste un haut-parleur Bluetooth sans Internet.

Pourquoi la différence? Parce que Siri et Cortana ont besoin de serveurs lourds pour décoder votre discours. Se pourrait-il être fait sur votre téléphone ou tablette? Bien sûr, mais vous tuerais vos performances et la vie de la batterie dans le processus. Il est tout simplement plus de sens pour délester le traitement des machines dédiées.

SIGCHI_Conference_Paper_Format _-_ KumarSpeechRecognitionForMobileApps_pdf

Pensez à cette façon: votre commande est une voiture coincée dans la boue. Vous pourriez probablement pousser vous-même avec assez de temps et d`efforts, mais il faudra prendre des heures et vous laisser épuisé. , Vous appelez l`assistance routière au lieu et ils tirez votre voiture en quelques minutes. L`inconvénient est que vous devez faire l`appel et attendre, mais il est encore plus rapide et moins pénible.

modèles de bureau comme Nuance ont tendance à utiliser les ressources locales en raison du matériel plus puissant. Après tout, dans les mots de Steve Jobs, votre bureau est un camion. (Ce qui en fait un peu idiot que OS X utilise des serveurs pour son traitement.) Donc, quand vous avez besoin de traiter la langue et de la voix, il est déjà équipé assez bien pour gérer lui-même.

Video: Chronique - Comment ça Marche ? La reconnaissance vocale, comment ça marche ?

D`autre part, Android permet aux développeurs d`inclure la reconnaissance vocale hors ligne dans leurs applications. Google aime aller de l`avant de la technologie, et vous pouvez parier les autres plates-formes gagneront cette capacité que leur matériel devient plus puissant. Personne n`aime quand une mauvaise couverture ou une mauvaise réception lobotomizes leur appareil.

Commencer à utiliser maintenant des commandes vocales

Maintenant que vous connaissez les concepts fondamentaux, vous devez jouer avec vos différents appareils. Essayez le nouveau saisie vocale dans Google Docs. Comme si la suite bureautique Web était pas déjà assez puissant, commande vocale vous permet de dicter complètement et formater vos documents. Cela se développe sur la puissante technologie dont ils ont déjà conçu pour Chrome et Android.Comment la voix frappe est le nouveau meilleur long métrage de Google DocsComment la voix frappe est le nouveau meilleur long métrage de Google DocsLa reconnaissance vocale est améliorée à pas de géant au cours des dernières années. Plus tôt cette semaine, Google a finalement introduit la voix tapant dans Google Docs. Mais est-ce correct? Découvrons-le!Lire la suite

D`autres idées incluent la configuration de votre Mac d`utiliser les commandes vocales et la mise en place de votre Amazon Echo avec la caisse automatique. Vivez dans l`avenir et d`embrasser parler à vos gadgets - même si vous commandez un peu plus des serviettes en papier. Si vous êtes un accro smartphone, nous avons aussi des tutoriels pour Siri, Cortana, et Android.

Quelle est votre utilisation préférée de la commande vocale? Faites le nous savoir dans les commentaires.

Articles connexes