A detecção de frases é apenas parte do processo.
Gritar "Ok Google" do outro lado da sala para mudar a música ou desligar as luzes em uma sala com certeza parece incrível, mas esse processo aparentemente simples é alimentado por uma complicada teia de tecnologias trabalhando por trás do cenas.
Quase todos os principais assistentes virtuais do mercado têm uma frase de chamada que você usa para acordar o assistente e conversar. Mas como os assistentes de voz sabem quando você está falando com eles?
Como funciona a detecção de frases?
Conforme mencionado acima, todo assistente de voz tem uma "frase de gatilho" ou palavra de ativação que você usa para ativar o assistente e dar mais comandos. O processo de detecção dessa frase é mais ou menos o mesmo com todos os assistentes, exceto por pequenas nuances. Dito isso, essas nuances podem significar a diferença entre dizer casualmente o comando wake e gritar várias vezes vezes apenas para o assistente continuar dormindo, algo que pode ser realmente irritante às vezes, especialmente se você estiver
usando seu assistente de voz para ajudar a se acalmar.Em geral, a maioria dos alto-falantes "inteligentes" possui um pequeno circuito cujo único trabalho é detectar o comando de ativação e, em seguida, colocar o restante do hardware em ação. A maior parte do processamento é feita na nuvem, mas a detecção de frase é feita no dispositivo por motivos óbvios de privacidade. A detecção de frases em telefones funciona mais ou menos da mesma maneira.
Os detalhes estão em segredo, mas esses sistemas de detecção usam aprendizado de máquina e redes neurais profundas (DNNs) para treinar modelos de IA para detectar sua voz e formar uma chave. Essa chave é usada para verificar quando você disse uma frase específica e todo o resto é enviado para a nuvem para processamento posterior.
Assistente do Google
Os telefones que suportam a detecção de "OK Google" geralmente vêm com um sistema de detecção de palavras-chave (KWS) que detecta a frase e, em seguida, corrige o restante de sua consulta para a nuvem. Como os dispositivos móveis têm poder computacional limitado, bem como restrições de duração da bateria, esses sistemas geralmente não são tão bons quanto os que você encontraria nos alto-falantes Google Nest.
Este sistema KWS no dispositivo capta continuamente o áudio dos microfones do dispositivo e inicia uma conexão com o servidor quando detecta uma frase de gatilho. O Google também usa o Reconhecimento Automático de Fala Contextual (ASR) do lado do servidor para melhorar a precisão geral de seu sistema KWS. Você pode ler mais sobre isso em Artigo de pesquisa do Google [PDF].
Siri
A Siri funciona da mesma forma que o Google Assistant em relação à detecção de "Hey Siri". A Apple foi surpreendentemente aberta sobre como o sistema funciona, que envolve um reconhecedor de fala "muito pequeno" que é executado em segundo plano e escuta apenas essas duas palavras. Este detector usa um DNN para converter o padrão acústico de sua voz gravado em cada instância em uma distribuição de probabilidade sobre os sons da fala, gerando essencialmente uma pontuação de confiança.
Seu iPhone ou Apple Watch faz isso alterando sua voz em um fluxo de amostras de forma de onda a uma taxa de 16.000 por segundo. Isso é então reduzido a uma sequência de quadros cobrindo um espectro sonoro de cerca de 0,01 segundos. Em seguida, um total de 20 desses quadros são alimentados para o modelo de detecção, que converte esses padrões em uma probabilidade.
Se o sistema determinar com confiança suficiente que você disse "Hey Siri", a Siri acorda e envia o resto da consulta para a nuvem, onde ocorre uma análise mais aprofundada e qualquer ação solicitada é realizado.
Existem, é claro, medidas adicionais adicionadas para garantir a eficiência da memória e da bateria. O processador Always On (AOP) do seu iPhone tem acesso aos microfones do dispositivo (no iPhone 6S e posteriores) por esse motivo, e uma pequena parte de seu poder de processamento é reservada para executar o DNN. A Apple mergulha profundamente em todo o sistema em seu site de aprendizado de máquina, aprendizado de máquina.apple.
Alexa
Assim como o Google Assistant e o Siri, o Alexa também não abriga a maior parte de seu poder de processamento em nenhum dos alto-falantes Echo que você pode comprar. Em vez disso, os falantes usam o que a Amazon chama de Reconhecimento Automático de Fala (ASR), que essencialmente converte palavras faladas em texto, permitindo que o sistema subjacente as interprete e aja de acordo.
O ASR forma a base básica de como o Alexa funciona. Mais uma vez, há um sistema integrado que escuta as palavras de ativação, neste caso, "Alexa", "Amazon", "Echo" ou "Computador" e aciona o restante do sistema quando a palavra de ativação predeterminada pelo usuário é detectou. Você também pode acorde seu dispositivo Alexa usando "Hey Disney" se você quiser.
Como o Google Assistant, você pode treinar o modelo de IA subjacente do Alexa para detectar melhor sua voz. Esse processo envolve a criação de uma "chave" de linha de base com a qual a palavra de ativação falada é comparada e, quando uma correspondência é encontrada, o dispositivo responde de acordo.
Os assistentes de voz estão sempre ouvindo?
Como você provavelmente já pode imaginar, sim, eles são. De outra forma, eles não seriam capazes de detectar as palavras de despertar. No entanto, você não precisa jogar fora todos os seus alto-falantes inteligentes devido a questões de privacidade ainda.
Ouvir tudo o que os usuários dizem, enviar de volta para um servidor remoto e analisar (ou armazenar) requer enormes recursos de hardware e financeiros a ponto de não fazer sentido do ponto de vista prático perspectiva. Adicione a isso as enormes preocupações com a privacidade com as quais empresas como Google, Apple e Amazon já lidam, e a ideia não faz sentido.
Isso também afeta enormemente o desempenho e a duração da bateria dos telefones com recursos de detecção de palavra de ativação, principalmente Google Pixels e iPhones. Se o seu telefone ouvir continuamente o que você está dizendo e enviar esse áudio de volta para um servidor remoto, ele esgotará sua bateria e afetará o desempenho do dispositivo.
Quem tem a detecção de frase mais eficiente e por quê?
Não é fácil comparar objetivamente qual assistente virtual tem a melhor detecção de frase objetivamente, pois todos usam implementações ligeiramente diferentes do mesmo conceito geral. No entanto, o Google parece ter uma detecção de frases mais consistente devido à vantagem inicial do Google Assistant em comparação com Siri e Alexa.
Apesar de aplicativos que usam modelos de linguagem grandes (LLMs) como ChatGPT e Bing Chat se tornarem populares, o Google Assistant mantém sua posição como um dos mais assistentes virtuais populares simplesmente porque estão a um toque de distância em todos os dispositivos Android, desde smart TVs a sistemas de som automotivos e, é claro, smartphones.
Siri e Alexa precisam se atualizar nesse departamento, mas no que diz respeito à detecção de frases, eles não estão tão longe assim. Ainda assim, você terá mais chances de ativar o Google Assistant no seu Pixel do outro lado da sala do que com a Siri no seu iPhone, embora você possa aumente os recursos da Siri com o modo Super Siri. Como o Alexa é usado principalmente na linha de alto-falantes Echo da Amazon, ele tem uma pequena vantagem aqui, considerando que esses alto-falantes são projetados para captar a voz do usuário.
A IA é tão assustadora quanto conveniente
Convocar seu assistente de IA apenas com sua voz pode ser bastante útil. Para um recurso que se integra perfeitamente em nossas vidas, muita coisa está acontecendo nos bastidores que a maioria de nós geralmente não pensa.
Dito isso, essa comodidade também traz consigo a inquietação de seu aparelho estar sempre ouvindo o que você fala. Até agora, os reconhecedores de fala no dispositivo e as palavras de ativação estão entre o que seu assistente virtual ouve e o que você diz.