O Google lançou seu código-fonte beta do codec de áudio Lyra no GitHub, tornando o processamento de áudio de baixa taxa de bits de qualidade incrível disponível para todos os desenvolvedores. O codec é mais útil em situações incorporadas e de largura de banda restrita, onde o máximo possível de dados precisa ser salvo.
Lyra: Quase nada nunca pareceu tão bom
O codec de áudio funciona com o princípio de fornecer a voz de som mais natural com a taxa de dados mais baixa possível. Ele consegue criar níveis quase assustadores de reprodução de áudio com taxas de bits tão baixas quanto 3 kbps. O Google usa compressão Lyra em tempo real já em seu aplicativo Duo, embora você não seja culpado por nem mesmo perceber a diferença do áudio de largura de banda regular.
Para demonstrar o quão melhor Lyra é do que outros codecs, o Google fornece exemplos por meio de um postagem do blog comparando o codec de compressão conduzido por Machine Learning com outras alternativas de 3 e 6 kbps.
É uma diferença de noite para dia, e dar aos desenvolvedores o mundo sobre essas ferramentas será um impulsionador significativo na melhoria da qualidade da comunicação onde a largura de banda é escassa. É também um excelente motivador para desenvolvedores que buscam criar novos aplicativos em mercados emergentes, algo que o Google certamente cobrirá neste ano
conferência virtual Google I / O online gratuita.O código-fonte beta é projetado atualmente com dispositivos Arm de 64 bits em mente, embora os exemplos também sejam executados em sistemas x86 Linux de 64 bits. O código-fonte é fornecido totalmente documentado, embora esteja em beta, e a página GitHub fornece instruções de instalação e como construir Lyra no Linux para destinos Arm de 64 bits.
Para obter o código-fonte beta do Lyra, vá para o Página Lyra GitHub.
Como Lyra funciona?
Embora o processo real que Lyra usa seja uma combinação incrivelmente complexa de modelos de aprendizado de máquina treinados em milhares de horas de dados de voz e otimizações da tecnologia de codec de áudio existente, a teoria é bastante simples.
A cada 40 ms, os recursos são retirados da fala e compactados para 3 kbps. Esses recursos representam os pontos de energia da fala no espectro de frequência mais próximos da resposta auditiva humana da fala - as coisas que precisamos reconhecer e entender quando alguém fala.
A parte principal do que torna Lyra especial é como ela usa essas informações:
No entanto, codecs paramétricos tradicionais, que simplesmente extraem parâmetros críticos da fala que podem ser usado para recriar o sinal na extremidade receptora, atingir taxas de bits baixas, mas muitas vezes soa robótico e não natural. Essas deficiências levaram ao desenvolvimento de uma nova geração de modelos generativos de áudio de alta qualidade que têm revolucionou o campo ao ser capaz de não apenas diferenciar sinais, mas também gerar novos uns.
Após a transmissão, Lyra reconstrói a forma de onda preenchendo o que está faltando usando este processo, embora de alguma forma não seja muito complexo computacionalmente.
Por um lado, é uma maravilha tecnológica que será executada em quase qualquer lugar. Por outro lado, ainda não estou 100% convencido de que não é bruxaria.
O Google Duo é um dos melhores aplicativos de videochamada que existem. Ele tem muitos recursos, e aqui estão aqueles que achamos que você realmente deveria usar.
Leia a seguir
- Notícias de tecnologia
- o Google
- Android
- Aprendizado de Máquina
Ian Buckley é jornalista freelance, músico, performer e produtor de vídeo que mora em Berlim, Alemanha. Quando não está escrevendo ou no palco, ele está mexendo em eletrônicos ou códigos DIY na esperança de se tornar um cientista maluco.
Assine a nossa newsletter
Junte-se ao nosso boletim informativo para dicas de tecnologia, análises, e-books grátis e ofertas exclusivas!
Mais um passo…!
Confirme o seu endereço de e-mail no e-mail que acabamos de enviar.