Propaganda

Agora podemos conversar com quase todos os nossos gadgets, mas exatamente como isso funciona? Quando você pergunta "Que música é essa?" ou diga "Ligue para a mãe", um milagre da tecnologia moderna está acontecendo. E, embora pareça estar na vanguarda, essa idéia de conversar com dispositivos remonta décadas - quase tanto quanto jetpacks em ficção científica!

Hoje, a maior parte da atenção dada à computação dirigida por voz está nos smartphones. Apple, Amazon, Microsoft e Google estão no topo da cadeia, cada um oferecendo seu próprio caminho para conversar com a eletrônica. Você sabia quem eles são: Siri, Alexa, Cortana e o nome "Ok, Google". O que levanta uma grande questão ...

Como um dispositivo pega as palavras faladas e as transforma em comandos que pode entender? Em essência, tudo se resume a correspondência de padrões e a fazer previsões com base nesses padrões. Mais especificamente, o reconhecimento de voz é uma tarefa complexa que vem Modelagem acústica e Modelagem de Linguagem.

instagram viewer

Modelagem acústica: formas de onda e telefones

forma de onda

Modelagem acústica é o processo de pegar uma forma de onda da fala e analisá-la usando modelos estatísticos. O método mais comum para isso é Modelagem oculta de Markov, que é usado no que é chamado modelagem de pronúncia dividir a fala em partes componentes chamadas telefones (não confunda com os dispositivos telefônicos reais). A Microsoft é pesquisadora líder nesse campo há muitos anos.

Modelagem oculta de Markov: Estados de probabilidade

Hidden Markov Modeling é um modelo matemático preditivo em que o estado atual é determinado pela análise da saída. A Wikipedia tem um ótimo exemplo usando dois amigos.

Imagine dois amigos - Amigo Local e Amigo Remoto - que moram em cidades diferentes. O Local Friend quer descobrir como está o tempo em que o Remote Friend mora, mas o Remote Friend só quer falar sobre o que ele fez naquele dia: caminhar, fazer compras ou limpar. A probabilidade de cada atividade, dependendo do clima do dia.

Modelagem oculta de Markov

Finja que esta é a única informação disponível. Com ele, o Local Friend pode encontrar tendências em como o clima mudou dia a dia e, usando essas tendências, ela pode começar a dar palpites sobre o tempo atual de hoje com base nas atividades de sua amiga. (Você pode ver um diagrama do sistema acima.)

Se você quiser um exemplo mais complexo, confira este exemplo no Matlab. No reconhecimento de voz, esse modelo compara essencialmente cada parte da forma de onda com o que vem antes e o que vem depois e com um dicionário de formas de onda para descobrir o que está sendo dito.

Basicamente, se você emitir um som "th", ele comparará esse som com os sons mais prováveis ​​que geralmente vêm antes e depois dele. Talvez isso signifique verificar o som "e", o som "at" e assim por diante. Quando o padrão corresponde corretamente, ele tem toda a sua palavra. Isso é uma simplificação excessiva, mas você pode ver A explicação completa da Microsoft aqui.

Modelagem de linguagem: mais do que som

A modelagem acústica ajuda bastante o computador a entender você, mas e os homônimos e as variações regionais na pronúncia? É aí que a Modelagem de Linguagem entra em cena. O Google conduziu muitas pesquisas nessa área, principalmente através do uso de Modelagem N-gram.

Quando o Google está tentando entender seu discurso, ele o faz com base em modelos derivados de seu enorme banco de pesquisas por voz e transcrições do YouTube. Todas essas legendas em vídeo hilariamente erradas realmente ajudaram o Google a desenvolver seus dicionários. Além disso, eles usaram a partida GOOG-411 para coletar informações sobre como as pessoas falam.

shutterstock_70757203

Toda essa coleção de idiomas criou uma vasta gama de pronúncias e dialetos, o que resultou em um dicionário robusto de palavras e como elas soam. Isso permite correspondências com uma taxa de erro bastante reduzida do que a correspondência de força bruta com base nas probabilidades brutas. Você pode ler um breve artigo descrevendo seus métodos aqui.

Embora o Google seja líder nesse campo, há outros modelos matemáticos em desenvolvimento, incluindo espaço contínuo modelos e modelos de linguagem posicional, que são técnicas mais avançadas nascidas de pesquisas em inteligência artificial. Esses métodos são baseados na replicação do tipo de raciocínio que os humanos fazem quando se ouvem. Eles são muito mais avançados, tanto em termos da tecnologia por trás deles, mas também da matemática e da programação necessárias para mapear esses modelos.

Modelagem N-Gram: Probabilidade e memória

A Modelagem N-gram funciona com base nas probabilidades, mas usa um dicionário de palavras existente para criar uma árvore ramificada de possibilidades, que é então suavizada por uma questão de eficiência. De certa forma, isso significa que a Modelagem N-grama elimina grande parte da incerteza na mencionada Modelagem Oculta de Markov.

Como observado acima, a força desse método vem de ter um grande dicionário de palavras e uso, não apenas primitivo sons. Isso dá ao programa a capacidade de diferenciar homofones, como "beat" e "beterraba". É contextual, o que significa que, quando você está falando sobre as pontuações da noite passada, o programa não está divulgando palavras sobre borscht.

Mas esses modelos na verdade não são os melhores para o idioma, principalmente devido a problemas com probabilidades de palavras em frases mais longas. À medida que você adiciona mais palavras a uma frase, este modelo fica um pouco errado, pois é improvável que suas primeiras palavras tenham carregado tudo o necessário para o seu pensamento completo.

No entanto, é simples e fácil de implementar, tornando-o uma ótima combinação para uma empresa como o Google que gosta de jogar servidores em problemas computacionais. Você pode ler mais sobre N-gram Modelieng no universidade de Washingtonou você pode assistir a um palestra em Coursera.

Gritando nas nuvens: aplicativos e dispositivos

Quem já usou o Siri conhece a frustração de uma conexão de rede lenta. Isso ocorre porque seus comandos para o Siri são enviados pela rede para serem decodificados pela Apple. O Cortana para Windows phone também requer uma conexão de rede para funcionar corretamente. Em contrapartida, no entanto, o Echo da Amazon é apenas um alto-falante Bluetooth sem Internet.

Por que a diferença? Porque a Siri e a Cortana precisam de servidores pesados ​​para decodificar sua fala. Isso poderia ser feito no seu telefone ou tablet? Claro, mas você diminuiria o desempenho e a duração da bateria no processo. Faz mais sentido transferir o processamento para máquinas dedicadas.

SIGCHI_Conference_Paper_Format _-_ KumarSpeechRecognitionForMobileApps_pdf

Pense desta maneira: seu comando é um carro preso na lama. Você provavelmente poderia se esforçar com bastante tempo e esforço, mas isso levará horas e o deixará exausto. Em vez disso, você liga para a assistência na estrada e eles puxam seu carro em apenas alguns minutos. A desvantagem é que você precisa fazer a ligação e esperar por elas, mas ainda é mais rápido e menos exigente.

Modelos de desktop como o Nuance tendem a usar recursos locais devido ao hardware mais poderoso. Afinal, nas palavras de Steve Jobs, seu área de trabalho é um caminhão. (O que torna um pouco tolo que o OS X esteja usando servidores para seu processamento.) Portanto, quando você precisa processar linguagem e voz, ele já está equipado o suficiente para lidar com isso por conta própria.

Por outro lado, o Android permite que os desenvolvedores incluam reconhecimento de fala offline em seus aplicativos. O Google gosta de ficar à frente da tecnologia, e você pode apostar que as outras plataformas ganharão essa capacidade à medida que o hardware se tornar mais poderoso. Ninguém gosta quando a cobertura ruim ou a má recepção lobotomizam seu dispositivo.

Comece a usar comandos de voz agora

Agora que você conhece os conceitos fundamentais, deve brincar com seus vários dispositivos. Experimente o novo digitação por voz no Google Docs Como a digitação por voz é o novo melhor recurso do Google DocsO reconhecimento de voz melhorou aos trancos e barrancos nos últimos anos. No início desta semana, o Google finalmente introduziu a digitação por voz no Google Docs. Mas isso é bom? Vamos descobrir! consulte Mais informação . Como se o pacote de escritório na Web não fosse suficientemente poderoso, o controle por voz permite que você dite e formate completamente seus documentos. Isso expande a poderosa tecnologia que eles já projetaram para Chrome e Android.

Outras idéias incluem configurar o seu Mac para usar comandos de voz Como usar comandos de fala no seu Mac consulte Mais informação e configurando seu Amazon Echo com checkout automático Como o Amazon Echo pode tornar sua casa uma casa inteligenteA tecnologia doméstica inteligente ainda está nos seus primeiros dias, mas um novo produto da Amazon chamado "Echo" pode ajudar a trazê-lo para o mainstream. consulte Mais informação . Viva no futuro e comece a conversar com seus gadgets, mesmo que esteja comprando mais toalhas de papel. Se você é um viciado em smartphones, também temos tutoriais para Siri 8 coisas que você provavelmente não percebeu que a Siri poderia fazerA Siri se tornou um dos recursos que definem o iPhone, mas para muitas pessoas, nem sempre é o mais útil. Embora parte disso se deva às limitações do reconhecimento de voz, a singularidade de usar ... consulte Mais informação , Cortana 6 coisas mais legais que você pode controlar com a Cortana no Windows 10A Cortana pode ajudá-lo a usar as mãos livres no Windows 10. Você pode permitir que ela pesquise seus arquivos e a Web, faça cálculos ou obtenha a previsão do tempo. Aqui abordamos algumas de suas habilidades mais legais. consulte Mais informação e Android OK, Google: 20 coisas úteis que você pode dizer para o seu telefone AndroidO Assistente do Google pode ajudar você a fazer muito no seu telefone. Aqui estão alguns comandos básicos, mas úteis, do Google OK para tentar. consulte Mais informação .

Qual é o seu uso favorito do controle de voz? Deixe-nos saber nos comentários.

Créditos da imagem: T-flex via Shutterstock, Terencehonles via Wikimedia Foundation, Estado do Arizona, Cienpies Design via Shutterstock

Michael não usou um Mac quando eles estavam condenados, mas ele pode codificar em Applescript. Ele é formado em Ciência da Computação e Inglês; ele escreve sobre Mac, iOS e videogames há algum tempo; e ele é um macaco de TI diurno há mais de uma década, especializado em scripts e virtualização.