Text-to-Speech, também chamado de TTS, é uma forma de tecnologia de suporte que traz facilidade e conforto à vida. O sistema lê textos digitais em voz alta e clara o suficiente para que uma pessoa entenda. TTS também é conhecido como tecnologia de leitura em voz alta, amplamente aceita por sua flexibilidade. É um único toque de distância, onde o texto do site é convertido em áudio.
O sistema se expande para todos os dispositivos, como smartphones, laptops, desktops e tablets, considerados ideais para crianças, o público acima de 20 anos e pessoas com deficiência. A luta para ler e o estresse dos olhos em relação aos dispositivos eletrônicos acabaram com o TTS, enquanto aumenta o foco, o aprendizado e o hábito de ler online por meio da audição. Então, se você é um blogueiro, leitor ou proprietário de site, o TTS é um software que expandirá seu horizonte de conhecimento. Mas quais são os benefícios de ter uma voz para tudo, sem limitação e sem limites? Ele é segregado de acordo com os usuários, pois eles são a pessoa que usa os serviços.
Permitir que as pessoas conversem com máquinas é um sonho antigo da interação humano-computador. A capacidade dos computadores de entender a fala natural foi revolucionada nos últimos anos pela aplicação de redes neurais profundas (por exemplo, Google Voice Search). No entanto, gerar fala com computadores — um processo geralmente chamado de síntese de fala ou conversão de texto em fala (TTS) — ainda se baseia em grande parte no chamado TTS concatenativo, onde um banco de dados muito grande de fragmentos de fala curtos são gravados de um único falante e, em seguida, recombinados para formar enunciados completos. Isso torna difícil modificar a voz (por exemplo, mudar para um locutor diferente ou alterar a ênfase ou emoção de sua fala) sem gravar um novo banco de dados.
O processo TTS envolve várias etapas:
Existem vários tipos de tecnologia TTS, incluindo:
O GSpeech oferece muitos recursos, incluindo soluções on-line, SaaS, Text-to-Speech (TTS) on-premise para uma ampla variedade de fontes, como sites, aplicativos móveis, e-books, material de e-learning, documentos, experiência cotidiana do cliente, experiência de transporte e muito mais. Como uma empresa, organização e editoras que integram a tecnologia TTS são beneficiadas.
A tecnologia TTS oferece maior acessibilidade para indivíduos com deficiência visual, dislexia ou dificuldades de leitura, permitindo que eles acessem informações e se comuniquem com mais facilidade.
Ao fornecer uma maneira alternativa para os usuários consumirem seu conteúdo, você pode melhorar a otimização de mecanismos de busca (SEO) do seu site WordPress. Isso é particularmente importante para usuários que dependem de leitores de tela para navegar na web.
A tecnologia TTS pode melhorar a experiência do usuário ao fornecer uma maneira mais natural e intuitiva de interagir com os dispositivos, reduzindo a necessidade de digitação ou leitura manual.
A tecnologia TTS pode fornecer suporte ao cliente 24 horas por dia, 7 dias por semana, respondendo a perguntas frequentes e fornecendo informações aos clientes de forma mais eficiente e eficaz.
A tecnologia TTS pode aumentar a produtividade automatizando tarefas como entrada de dados, transcrição e leitura, liberando tempo para tarefas mais importantes.
A tecnologia TTS pode oferecer suporte a vários idiomas, o que a torna uma ferramenta valiosa para empresas e organizações que operam globalmente.
A tecnologia TTS pode melhorar a compreensão da leitura ao permitir que os usuários ouçam o texto enquanto acompanham a palavra escrita, facilitando a compreensão de informações complexas.
A tecnologia TTS pode reduzir a fadiga e o cansaço visual ao fornecer uma alternativa à leitura e à digitação, tornando-se uma ferramenta valiosa para indivíduos que passam longas horas em frente às telas.
A tecnologia TTS pode aumentar o engajamento ao proporcionar uma experiência mais interativa e imersiva, tornando-se uma ferramenta valiosa para aplicações educacionais e de entretenimento.
A tecnologia TTS pode proporcionar uma vantagem competitiva ao oferecer uma maneira única e inovadora de interagir com dispositivos, diferenciando seu produto ou serviço da concorrência.
Isso levou a uma grande demanda por TTS paramétrico, onde todas as informações necessárias para gerar os dados são armazenadas nos parâmetros do modelo, e o conteúdo e as características da fala podem ser controlados por meio das entradas para o modelo. Até agora, no entanto, o TTS paramétrico tendeu a soar menos natural do que o concatenativo. Os modelos paramétricos existentes geralmente geram sinais de áudio, passando suas saídas por meio de algoritmos de processamento de sinal conhecidos como codificadores de voz.
O WaveNet muda esse paradigma modelando diretamente a forma de onda bruta do sinal de áudio, uma amostra de cada vez. Além de produzir um discurso de som mais natural, usar formas de onda brutas significa que o WaveNet pode modelar qualquer tipo de áudio, incluindo música.
Os pesquisadores geralmente evitam modelar áudio bruto porque ele é muito rápido: tipicamente 16,000 amostras por segundo ou mais, com estrutura importante em muitas escalas de tempo. Construir um modelo completamente autorregressivo, no qual a previsão para cada uma dessas amostras é influenciada por todas as anteriores (em termos estatísticos, cada distribuição preditiva é condicionada a todas as observações anteriores), é claramente uma tarefa desafiadora.
O Mercado Pago não havia executado campanhas de Performance anteriormente nessas plataformas. Alcançar uma campanha de sucesso exigiria PixelRNN e Pixel CNN modelos, publicados anteriormente, mostraram que era possível gerar imagens naturais complexas não apenas um pixel por vez, mas um canal de cor por vez, exigindo milhares de previsões por imagem. Isso nos inspirou a adaptar nossos PixelNets bidimensionais para um WaveNet unidimensional.
A animação acima mostra como uma WaveNet é estruturada. É uma rede neural totalmente convolucional, onde as camadas convolucionais têm vários fatores de dilatação que permitem que seu campo receptivo cresça exponencialmente com profundidade e cubra milhares de passos de tempo.
No momento do treinamento, as sequências de entrada são formas de onda reais gravadas de falantes humanos. Após o treinamento, podemos amostrar a rede para gerar expressões sintéticas. Em cada etapa durante a amostragem, um valor é extraído da distribuição de probabilidade computada pela rede. Esse valor é então realimentado na entrada e uma nova previsão para a próxima etapa é feita. Construir amostras uma etapa de cada vez como essa é computacionalmente caro, mas descobrimos que é essencial para gerar áudio complexo e com som realista.
Nós treinamos WaveNet usando alguns dos conjuntos de dados TTS do Google para que pudéssemos avaliar seu desempenho. A figura a seguir mostra a qualidade do WaveNets em uma escala de 1 a 5, em comparação com os melhores sistemas TTS atuais do Google (paramétrico e concatenativa), e com a fala humana usando Pontuações médias de opinião (MOS). MOS são uma medida padrão para testes subjetivos de qualidade sonora, e foram obtidos em testes cegos com sujeitos humanos (de mais de 500 avaliações em 100 frases de teste). Como podemos ver, WaveNets reduzem a lacuna entre o estado da arte e o desempenho de nível humano em mais de 50% para inglês dos EUA e chinês mandarim.
Tanto para chinês quanto para inglês, os atuais sistemas TTS do Google são considerados entre os melhores do mundo, então melhorar ambos com um único modelo é uma grande conquista.
O GSpeech tem um algoritmo de síntese de voz de IA, que é um dos mais avançados e realistas do mercado. A maioria dos sintetizadores de voz (incluindo o Siri da Apple) usa o que é chamado de síntese concatenativa, na qual um programa armazena sílabas individuais — sons como "ba", "sht" e "oo" — e as junta rapidamente para formar palavras e frases. Esse método ficou muito bom ao longo dos anos, mas ainda soa afetado.
WaveNet, em comparação, usa aprendizado de máquina para gerar áudio do zero. Na verdade, ele analisa as formas de onda de um enorme banco de dados de fala humana e as recria a uma taxa de 24,000 amostras por segundo. O resultado final inclui vozes com sutilezas como estalos de lábios e sotaques. Quando o Google revelou o WaveNet pela primeira vez em 2016, ele era muito intensivo em computação para funcionar fora de ambientes de pesquisa, mas desde então foi significativamente reduzido, mostrando um pipeline claro da pesquisa ao produto.