Alexa, hvordan virker Siri? Stemmekontrol forklaret

Verden bevæger sig mod talekommandoer til alt, men hvordan virker stemmekontrol? Hvorfor er det så glitchy og begrænset? Her er hvad du behøver at vide som en lægmandbruger.

Verden bevæger sig mod talekommandoer til alt, men hvordan virker stemmekontrol?  Hvorfor er det så glitchy og begrænset?  Her er hvad du behøver at vide som en lægmandbruger.
Reklame

Vi kan tale med næsten alle vores gadgets nu, men præcis hvordan virker det? Når du spørger "Hvilken sang er dette?" Eller siger "Call Mom", sker et mirakel af moderne teknologi. Og mens det føles som om det er på forkant, går denne ide om at tale med enheder tilbage i årtier - næsten lige så langt som jetpacks i science fiction!

I dag er hovedparten af ​​den opmærksomhed, der gives til stemmestyret computing, på smartphones. Apple, Amazon, Microsoft og Google er øverst i kæden, der hver især tilbyder sin egen måde at tale med elektronik på. Du vidste, hvem de er: Siri, Alexa, Cortana og den navnløse "Ok, Google". Hvilket rejser et stort spørgsmål ...

Hvordan tager en enhed talte ord og gør dem til kommandoer, det kan forstå? I det væsentlige kommer det ned til mønster matching og forudsigelser baseret på disse mønstre. Mere specifikt er stemmegenkendelse en kompleks opgave, der kommer fra akustisk modellering og sprogmodellering .

Akustisk modellering: Waveforms & Phones

bølgeform

Akustisk modellering er processen med at tage en bølgeform af tale og analysere den ved hjælp af statistiske modeller. Den mest almindelige metode til dette er Hidden Markov Modeling, som bruges i hvad der kaldes udtale modellering for at bryde tale ned i komponentdele kaldet telefoner (ikke forveksles med faktiske telefon enheder). Microsoft har i mange år været en førende forsker på dette område.

Skjult Markov Modeling: Sandsynlighed Stater

Skjult Markov Modeling er en prædiktiv matematisk model, hvor den aktuelle tilstand bestemmes ved at analysere udgangen. Wikipedia har et godt eksempel ved hjælp af to venner.

Forestil dig to venner - Lokal ven og fjernmand - der bor i forskellige byer. Lokal ven ønsker at finde ud af, hvordan vejret er, hvor Remote Friend bor, men Remote Friend vil kun tale om hvad han gjorde den dag: gå, shoppe eller rengøre. Sandsynligheden for hver aktivitet afhængigt af dagens vejr.

Skjult Markov Modeling

Foregive, at dette er den eneste tilgængelige information. Med den kan Local Friend finde tendenser i, hvordan vejret ændrede sig fra dag til dag, og ved hjælp af disse tendenser kan hun begynde at lave uddannede gæt om, hvordan dagens vejr vil være baseret på hendes venns aktivitet i går. (Du kan se et diagram over systemet ovenfor.)

Hvis du vil have et mere komplekst eksempel, så tjek dette eksempel på Matlab. Ved stemmegenkendelse sammenligner denne model i det væsentlige hver del af bølgeformen mod hvad der kommer før og hvad der kommer efter, og mod en ordbog af bølgeformer for at finde ud af, hvad der bliver sagt.

I det væsentlige, hvis du laver en "th" lyd, vil det kontrollere, at lyden mod de mest sandsynlige lyde, der normalt kommer før og efter det. Måske betyder det at tjekke mod "e" lyden, "på" lyden og så videre. Når mønsteret passer op korrekt, har det hele dit ord. Dette er en overforenkling, men du kan se Microsofts samlede forklaring her.

Sprogmodellering: Mere end lyd

Akustisk modellering går langt i at hjælpe din computer med at forstå dig, men hvad med homonymer og regionale variationer i udtale? Det er her, hvor sprogmodellering kommer i spil. Google har drevet meget forskning på dette område, hovedsagelig ved brug af N-gram Modeling .

Når Google forsøger at forstå din tale, gør den det på baggrund af modeller afledt af sin massive bank af Voice Search og YouTube-transkriptioner. Alle disse hilarisk forkerte video billedtekster har faktisk hjulpet Google til at udvikle deres ordbøger. De brugte også de afledte GOOG-411 til at indsamle oplysninger om, hvordan folk taler.

shutterstock_70757203

Alt i denne sprogsamling skabte et bredt udvalg af udtalelser og dialekter, hvilket gav en robust ordbog af ord og hvordan de lyder. Dette giver mulighed for kampe, der har en stærkt reduceret fejlrate end brute force matchning baseret på rå sandsynlighed. Du kan læse et kort dokument, der beskriver deres metoder her.

Mens Google er førende inden for dette område, udvikles der andre matematiske modeller, herunder kontinuerlige rummodeller og positionelle sprogmodeller, som er mere avancerede teknikker, der er født af forskning i kunstig intelligens. Disse metoder er baseret på at replikere den slags resonerende mennesker gør, når de lytter til hinanden. Disse er langt mere avancerede både hvad angår teknologien bag dem, men også matematikken og programmeringen er nødvendig for at kortlægge disse modeller.

N-Gram-modellering: Sandsynlighed opfylder hukommelse

N-gram Modellering arbejder ud fra sandsynligheder, men det bruger en eksisterende ordbog af ord til at skabe et forgrenende træ af muligheder, som derefter udglattes for effektivitets skyld. På en måde betyder det, at N-gram Modeling fjerner meget usikkerheden i den førnævnte Hidden Markov Modeling.

Som nævnt ovenfor kommer denne metode styrke fra at have en stor ordbog af ord og brug, ikke bare primitive lyde . Dette giver programmet muligheden for at fortælle forskellen mellem homofoner, som "beat" og "beet". Det er kontekstmæssigt, hvilket betyder, at når du taler om aftesens scoringer, trækker programmet ikke op om borscht.

Men disse modeller er faktisk ikke det bedste for sprog, primært på grund af problemer med sandsynligheder for ord i længere sætninger. Som du tilføjer flere ord til en sætning, bliver denne model lidt væk, da dine tidlige ord sandsynligvis ikke har indlæst alt, hvad der er nødvendigt for din komplette tanke.

Men det er enkelt og nemt at implementere, hvilket gør det til en god kamp for et firma som Google, der nyder at kaste servere ved beregningsmæssige problemer. Du kan gøre yderligere læsning på N-gram Modelieng ved University of Washington, eller du kan se et foredrag på Coursera.

Shouting at Clouds: Apps & Devices

Enhver, der har brugt Siri, kender frustrationen af ​​en langsom netværksforbindelse. Dette skyldes, at dine kommandoer til Siri sendes over netværket for at blive afkodet af Apple. Cortana for Windows-telefon kræver også, at en netværksforbindelse fungerer korrekt. I modsætning hertil er Amazon's Echo bare en Bluetooth-højttaler uden internet.

Hvorfor forskellen? Fordi Siri og Cortana har brug for tunge servere til at afkode din tale. Kan det gøres på din telefon eller tablet? Sikker på, men du vil dræbe din ydeevne og batterilevetid i processen. Det er bare mere fornuftigt at aflæse behandlingen til dedikerede maskiner.

SIGCHI_Conference_Paper_Format _-_ KumarSpeechRecognitionForMobileApps_pdf

Tænk på det på denne måde: Din kommando er en bil, der sidder fast i mudderet. Du kan sikkert skubbe dig selv ud med nok tid og kræfter, men det vil tage timer og lade dig udmattet. I stedet kalder du vejhjælp, og de trækker din bil ud på få minutter. Ulempen er, at du skal foretage opkaldet og vente på dem, men det er stadig hurtigere og mindre beskatning.

Desktop modeller som Nuance har tendens til at bruge lokale ressourcer på grund af den mere kraftfulde hardware. Efter alt, i Steve Jobs ord, er dit skrivebord en lastbil. (Det gør det lidt dumt, at OS X bruger servere til behandling.) Så når du har brug for at behandle sprog og stemme, er den allerede udstyret godt nok til at håndtere det selv.

På den anden side giver Android udviklere mulighed for at inkludere offline talegenkendelse i deres apps. Google kan lide at komme foran teknologien, og du kan vædde på, at de andre platforme får denne mulighed, da deres hardware bliver mere kraftfuld. Ingen kan lide det, når dårlig dækning eller dårlig modtagelse lobotomizes deres enhed.

Start med at bruge stemmekommandoer nu

Nu hvor du kender de grundlæggende begreber, bør du lege med dine forskellige enheder. Prøv den nye stemmetyper i Google Dokumenter Hvordan stemmetyper er den nye bedste funktion af Google Dokumenter Hvordan stemmetyper er den nye bedste funktion af Google Dokumenter Stemmegenkendelse er forbedret i løbet af de seneste år. Tidligere i ugen indførte Google endelig stemmeindtastning i Google Docs. Men er det godt? Lad os finde ud af det! Læs mere . Som om Web Office-pakken ikke allerede var stærk nok, giver talekontrol dig mulighed for at diktere og formatere dine dokumenter fuldstændigt. Dette udvides på den kraftfulde teknologi, de allerede har designet til Chrome og Android.

Andre ideer er at konfigurere din Mac til at bruge stemmekommandoer Sådan bruges talekommandoer på din Mac Sådan bruger du talekommandoer på din Mac Læs mere og opsæt dit Amazon Echo med automatisk checkout Hvordan Amazon Echo kan gøre dit hjem til et smart hjem Hvordan Amazon Echo kan gøre dit hjem Et smart hjem Smart hjemteknologi er stadig i sine tidlige dage, men et nyt produkt fra Amazon kaldet "Echo" kan hjælpe med at bringe det i mainstream. Læs mere . Lever i fremtiden og omfavn at tale med dine gadgets - selvom du bare bestiller flere papirhåndklæder. Hvis du er en smartphone-misbruger, har vi også fået vejledning til Siri 8 ting, du sandsynligvis ikke har forstået, Siri kunne gøre 8 ting, du sandsynligvis ikke har realiseret, Siri kunne gøre, Siri er blevet en af ​​iPhone's definerende funktioner, men for mange mennesker, det er ikke altid det mest nyttige. Mens nogle af dette skyldes begrænsningerne af stemmegenkendelse, er det underligt at bruge ... Læs mere, Cortana 6 cooleste ting du kan styre med Cortana i Windows 10 6 Cooleste ting du kan styre med Cortana i Windows 10 Cortana kan hjælpe dig Gå håndfri på Windows 10. Du kan lade hende søge i dine filer og på internettet, lave beregninger eller trække vejrudsigten op. Her dækker vi nogle af hendes køligere færdigheder. Læs mere og Android OK, Google: 20 + nyttige ting, du kan sige til din Android-telefon OK, Google: 20 + nyttige ting, du kan sige til din Android-telefon. Langsomt, uden at vi har bemærket, er fremtiden kommet. Læs mere .

Hvad er din foretrukne brug af talestyring? Lad os vide i kommentarerne.

Billedkreditter: T-flex via Shutterstock, Terencehonles via Wikimedia Foundation, Arizona State, Cienpies Design via Shutterstock

In this article