Simon Poghosyan é o fundador e CEO da GSpeech, uma plataforma de IA baseada na web que ajuda a tornar o conteúdo online mais acessível, convertendo texto em áudio com som natural em mais de 70 idiomas. Com formação em Design VLSI e grande interesse em programação e experiência do usuário, Simon criou o GSpeech para simplificar a maneira como os sites podem oferecer conteúdo ativado por voz.
Atualmente, o GSpeech gera cerca de 200 milhões de caracteres de áudio por mês e é usado em mais de 70 países, com seus players de áudio personalizáveis gerando mais de 200,000 reproduções por mês. Tendo recentemente ultrapassado 1 bilhão de caracteres de áudio gerados no total, o GSpeech continua crescendo rapidamente. A plataforma foi projetada para ser fácil de integrar — exigindo apenas uma única linha de código — e apoia criadores, educadores e empresas a tornarem seu conteúdo mais inclusivo e envolvente.
Sua formação em Design VLSI (Integração em Escala Muito Grande) e sua experiência inicial em programação estabeleceram uma base técnica sólida. O que inspirou sua transição da microeletrônica para o desenvolvimento de software com IA, e como isso levou à criação do GSpeech?
Minha paixão por resolução de problemas começou no ensino médio, impulsionada pelo amor por matemática e física. Esse interesse me levou a obter um bacharelado (2009) e um mestrado (2011) em Design de VLSI pela Universidade Estadual de Engenharia da Armênia, em colaboração com a Synopsys Armenia. Estudar física me treinou em precisão e pensamento analítico, mas foi no meu segundo ano que descobri a programação — começando com a linguagem Pascal — e imediatamente me apaixonei por ela. Meu amigo e eu terminávamos as tarefas do curso assim que as recebíamos, mesmo tendo seis meses para concluí-las. Então, por diversão, começamos a fazer as tarefas de outros alunos.
Essa paixão me levou a me aprofundar ainda mais no desenvolvimento de software. Comecei com a criação de sites e, em seguida, construí meu próprio CMS. Depois de concluir vários projetos em automação de processos e design de arquiteturas de gerenciamento de dados, percebi o quanto eu amava criar soluções digitais para interfaces web. Por meio do projeto 2GLux, colaborei com Edvard Ananyan — criador do popular GTranslate serviço de tradução e um amigo da escola do Quantum Gymnasium. Ele me apresentou aos ecossistemas WordPress e Joomla, e ao conceito de GSpeech originou-se com ele. Esse trabalho inicial levou à primeira versão da nossa ferramenta, permitindo que os usuários ouvissem textos em uma página da web, plantando a semente para o que mais tarde se tornaria uma plataforma de IA completa. Em 2023, estabeleci Smarts Club LLC escalar GSpeech em uma solução global de áudio com IA, com suporte para mais de 70 idiomas. Humanity UnionOs elogios do ao papel do GSpeech em melhorar a acessibilidade de sua plataforma de engajamento cívico refletem minha missão de diminuir as desigualdades digitais por meio da IA — uma visão enraizada nos meus primeiros dias de programação.
O GSpeech começou como uma ferramenta para auxiliar usuários com deficiência visual. Como essa missão inicial influenciou a evolução da plataforma para uma solução completa de conversão de texto em fala por IA?
O foco em acessibilidade impulsionou o desenvolvimento de áudio de IA de alta qualidade em tempo real, tradução para mais de 70 idiomas e integração perfeita com sites por meio de um simples trecho de código. Essa missão levou a recursos como players de áudio personalizáveis, painéis de seleção de idioma e voz, reprodução contextual, downloads de áudio e estatísticas detalhadas de uso — incluindo país, cidade, dados do dispositivo e análises de reprodução ao longo do tempo — tudo projetado para tornar o conteúdo mais inclusivo e envolvente. Depois de escrever mais de 100,000 linhas de código, lancei o GSpeech Cloud Console em 2023 — uma solução escalável que equilibra inclusão com funcionalidades avançadas, capacitando empresas e criadores a tornar seu conteúdo acessível, multilíngue e interativo na web.
Quais foram alguns dos maiores desafios técnicos que você enfrentou durante o desenvolvimento do GSpeech Cloud Console?
Um dos maiores desafios no desenvolvimento do GSpeech Cloud Console foi projetar uma arquitetura escalável para geração de áudio por IA em tempo real, segura e de alta qualidade. Isso exigiu soluções inovadoras para buscar conteúdo relevante da web, processar áudio em nossos servidores e armazená-lo na nuvem para uma entrega rápida e confiável. A implementação de medidas de segurança robustas, como criptografia e controles de acesso, foi fundamental para proteger o conteúdo dinâmico gerado pelo usuário.
Outro obstáculo foi possibilitar a tradução em tempo real usando mecanismos neurais avançados. Precisávamos garantir traduções precisas e de baixa latência, ao mesmo tempo em que desenvolvíamos uma interface intuitiva que permitisse aos usuários selecionar os idiomas e os perfis de voz preferidos para reprodução, priorizando o conforto e a personalização. Por fim, desenvolvemos um assistente para criação de modelos de áudio com múltiplas visualizações de player personalizáveis, permitindo que os usuários criassem players exclusivos e visualmente atraentes, adaptados aos seus sites. Equilibrar flexibilidade, desempenho e facilidade de uso em todos os dispositivos foi um desafio gratificante.
Com tradução em tempo real para mais de 70 idiomas e mais de 230 vozes naturais, como garantir a qualidade da voz e manter a precisão em um conjunto de idiomas tão diverso?
Para manter a consistência da qualidade de voz, integramos diversos modelos avançados de conversão de texto em voz (TTS) que são continuamente otimizados e atualizados. Esses mecanismos multilíngues processam conteúdo em vários idiomas com alta precisão. Também estamos lançando mais de 100 novas vibrações de voz para oferecer aos usuários opções ainda mais expressivas e naturais. Mensalmente, o GSpeech gera mais de 200 milhões de caracteres de áudio, atendendo usuários em mais de 70 países, com nossos players online sendo usados mais de 200,000 vezes por mês — e esse número continua crescendo. Essa escala garante feedback contínuo e testes em tempo real, que influenciam diretamente nossos controles de ajuste e qualidade.
Você pode nos explicar como o GSpeech utiliza IA e aprendizado de máquina para oferecer síntese de voz realista? Como você acompanha os rápidos avanços na tecnologia de voz neural?
A GSpeech utiliza IA avançada e aprendizado de máquina, integrando diversos modelos de conversão de texto em fala de última geração para produzir sínteses de voz realistas. Esses modelos, otimizados para naturalidade e suporte multilíngue, processam entradas de texto para gerar áudio de alta qualidade com entonação e ritmo realistas, mesmo para conteúdo em vários idiomas. Aprimoramos a experiência do usuário oferecendo estilos de voz personalizáveis para diversos idiomas. Também integramos aliases TTS, que permitem aos usuários definir regras personalizadas para como certas palavras ou frases são renderizadas em áudio — por exemplo, substituindo termos específicos para obter pronúncia ou fraseado mais precisos. Para nos mantermos atualizados com a tecnologia de voz neural, avaliamos e integramos continuamente os avanços mais recentes, colaboramos com líderes do setor e planejamos desenvolver modelos proprietários no futuro, garantindo que a GSpeech permaneça na vanguarda da inovação em síntese de voz.
Qual a importância do ajuste de voz, do controle de tom e da personalização da reprodução para seus usuários? E qual é o caso de uso do qual você mais se orgulha, no qual esses recursos realmente se destacam?
Afinação de voz, controle de tom e personalização de reprodução são essenciais para nossos usuários, permitindo que criem estilos de voz únicos e de alta qualidade, adaptados às suas necessidades específicas, desde sites de notícias e blogs até conteúdo acessível de e-learning. A integração contínua de mais de 100 novas vibrações de voz aprimora ainda mais essa funcionalidade, oferecendo aos usuários flexibilidade incomparável para criar dublagens verdadeiramente distintas. Tenho muito orgulho do GSpeech Studio, uma nova plataforma de edição e geração de áudio que estou desenvolvendo. Ele permite que os usuários criem múltiplos canais de áudio, misturem-nos com música de fundo e exportem dublagens refinadas, capacitando os criadores a produzir áudio de nível profissional para diversas aplicações. A carta de um aluno com deficiência visual, agradecendo ao GSpeech por permitir o estudo independente por meio de áudio personalizado, me tocou profundamente. Este caso de uso mostra como esses recursos tornam o conteúdo acessível e transformador, um objetivo que busco desde meus primeiros dias na programação.
O GSpeech oferece integrações perfeitas com WordPress, Shopify, Wix e muito mais. Qual tem sido sua estratégia para tornar a plataforma plug-and-play para criadores e empresas em diferentes ecossistemas?
Nossa estratégia para as integrações plug-and-play do GSpeech com plataformas como WordPress, Shopify e Wix focou em simplicidade, compatibilidade e escalabilidade. Desenvolvemos plugins e trechos de código leves e modulares que se integram perfeitamente, exigindo configuração mínima — geralmente apenas alguns cliques. Isso significa que milhares de artigos e blocos de conteúdo dinâmico podem obter suporte de voz instantaneamente — sem esforço manual. Oferecemos players altamente flexíveis e com design elegante que se adaptam a todos os dispositivos, incluindo celulares, tablets e desktops. Nossos players não são apenas personalizáveis, mas também otimizados para acessibilidade e engajamento do usuário. Para o WordPress, incorporamos o painel da nuvem do GSpeech diretamente no painel de administração por meio do nosso plugin, simplificando o gerenciamento para os usuários. Documentação detalhada e painéis intuitivos guiam usuários não técnicos pela instalação e personalização. Testes regulares garantem um desempenho consistente em diversos ecossistemas, capacitando criadores e empresas a adicionar conversão de texto em voz com tecnologia de IA sem esforço.
Olhando para a jornada de 2012 até hoje, qual foi o maior marco para você, pessoal ou profissionalmente, na construção do GSpeech?
O maior marco para o GSpeech foi gerar 1 bilhão de caracteres de áudio de IA de alta qualidade, demonstrando nosso impacto global na acessibilidade. Igualmente significativo foi o feedback que recebemos de organizações como a Humanity Union, que elogiou o GSpeech por aprimorar sua plataforma de responsabilidade social, e de blogueiros que o chamaram de "revolucionário" para o engajamento do usuário. Mais de 110 avaliações cinco estrelas em plataformas como WordPress e AppSumo nos últimos meses refletem essa confiança crescente.
O GSpeech agora também é usado ativamente pelo Departamento regional de estatística de Namangan no Uzbequistão — uma instituição governamental com tráfego significativo e visibilidade nacional. Ver um órgão público adotar nossa tecnologia de forma tão ampla foi um marco significativo e um forte sinal de confiança em nossa solução.
Como cristão e membro da Igreja Armênia, também tento apoiar outras iniciativas religiosas sempre que possível. Costumo oferecer o GSpeech gratuitamente a sites cristãos como forma de ajudar a divulgar sua mensagem de forma mais eficaz e tornar as Escrituras mais acessíveis por meio de áudio. É minha pequena contribuição para algo maior. Ao mesmo tempo, tenho a honra de trabalhar com ministérios dedicados como O cordão — uma congregação messiânica e cliente valiosa da GSpeech — cuja missão e conteúdo refletem o poder das Escrituras em ação.
Esses momentos — quando a tecnologia se torna uma ponte para a fé, a compreensão e a inclusão — me lembram por que criamos o GSpeech em primeiro lugar.
Que papel você vê o GSpeech desempenhando no futuro da mídia digital, especialmente à medida que o conteúdo de áudio e as interfaces de voz se tornam mais dominantes?
Imagino o GSpeech como líder em tornar a mídia digital mais acessível e envolvente, permitindo o acesso de voz à web por meio de IA. Nosso objetivo é transformar toda a experiência online, para que os sites se tornem naturalmente interativos por voz, inclusivos e multilíngues por padrão. Com apenas uma linha de código, os proprietários de sites podem transformar milhares de artigos em conteúdo com voz. Visando o futuro, estamos desenvolvendo o GSpeech Studio como uma plataforma poderosa e única para geração e edição de áudio, permitindo que os usuários criem conteúdo de voz em várias camadas com música de fundo, efeitos e ajuste preciso. Queremos tornar a web verdadeiramente audível, intuitiva e universalmente acessível.
GSpeech foi lançado recentemente no AppSumo e já recebeu uma avaliação quase perfeita dos primeiros usuários. O que a resposta da comunidade AppSumo significou para você e como você planeja aproveitar esse impulso daqui para frente?
O lançamento do AppSumo apresentou o GSpeech a milhões de pessoas, e sua classificação quase perfeita é incrivelmente positiva. Usuários, assim como aqueles que ministram cursos online, elogiam nossas ferramentas intuitivas e nosso suporte ágil, ecoando o feedback da Humanity Union. Um blogueiro descreveu nossas vozes como "genuinamente envolventes" e nossas traduções como "impressionantes". Seu feedback positivo confirma o valor de nossa solução de conversão de texto em voz com tecnologia de IA e alimenta minha paixão pelo projeto. O suporte aos clientes durante o lançamento também gerou novas ideias, especialmente para o GSpeech Studio, que foi inspirado por solicitações de usuários por recursos avançados de edição e exportação de áudio. No futuro, pretendo aproveitar esse impulso ouvindo ativamente nossa comunidade, integrando seus feedbacks e desenvolvendo recursos inovadores para aprimorar a acessibilidade e o engajamento, garantindo que o GSpeech continue a evoluir como uma ferramenta transformadora para criadores e empresas.
Por fim, que conselho você daria a jovens desenvolvedores ou empreendedores que querem criar ferramentas acessíveis e com tecnologia de IA no atual cenário tecnológico em rápida evolução?
Para jovens desenvolvedores e empreendedores, meu conselho é que se dediquem de corpo e alma ao trabalho e identifiquem um problema real para o qual possam oferecer uma solução única e inteligente. Comecem aos poucos, avancem com firmeza e ouçam atentamente o feedback dos clientes — eles guiarão seu caminho. Tratem seus usuários como amigos de confiança, deem o seu melhor e sejam pacientes. Adotem as tecnologias de IA como aliadas poderosas; quando usadas com sabedoria, elas ampliam sua capacidade de criar ferramentas impactantes e acessíveis. Construa com paixão, persistência e compromisso de fazer a diferença, e você criará soluções que realmente importam.
Obrigado a Antoine Tardif para a entrevista. Você pode ler a entrevista completa aqui: uni-vos.ai.