Na Polónia, as dobragens tradicionais são conhecidas por serem sofríveis: um único locutor lê todos os diálogos num tom monótono e arrastado, sem qualquer variação. O público mais jovem detesta. “Pergunte a qualquer polaco e ele dirá que é terrível”, diz Mateusz (Mati) Staniszewski, cofundador da ElevenLabs. “Acho que foi uma solução herdada do comunismo, uma forma barata de produzir conteúdo.” Enquanto trabalhava na Palantir, Staniszewski juntou-se ao amigo de liceu e engenheiro da Google, Piotr Dabkowski, para explorar experimentações com inteligência artificial. Depressa perceberam que um dos projetos, um treinador de oratória com IA, poderia resolver o problema muito particular de ver Leonardo DiCaprio ou Scarlett Johansson abafados por um único narrador, como a estrela local Maciej Gudowski.
Em maio de 2022, os dois reuniram as poupanças que tinham e deixaram os respetivos empregos para se dedicarem em exclusivo à ElevenLabs. Desde o início, o gerador de voz da empresa destacava-se das soluções robóticas da Siri (Apple) ou da Alexa (Amazon). As vozes criadas pela ElevenLabs conseguiam transmitir felicidade, entusiasmo e até gargalhadas.
O primeiro modelo foi lançado em janeiro de 2023. Era capaz de transformar qualquer texto num discurso lido por qualquer voz — incluindo um clone da voz do próprio utilizador, ou, mais inquietante, da voz de outra pessoa. A procura foi imediata. Autores começaram a produzir audiolivros instantaneamente com o software (os planos profissionais começam agora nos US$ 99/85,18 € por mês). Criadores do YouTube usaram o serviço para traduzir vídeos para outros idiomas (o modelo já domina 29 línguas). A empresa, sediada entre Varsóvia e Londres, rapidamente assinou acordos com aplicações de aprendizagem de línguas e meditação; pouco depois, empresas de media como a HarperCollins e a alemã Bertelsmann juntaram-se à lista de clientes. “Era óbvio que este era o melhor modelo e toda a gente o estava a comprar”, diz Jennifer Li, investidora da Andreessen Horowitz, que co-liderou uma ronda de US$ 19 milhões (16,35 milhões de euros) em maio de 2023. Um ano depois, os fundadores entraram na lista Forbes 30 Under 30 Europe.
Mas nem todos os usos foram tão benignos. Imitadores digitais de figuras públicas tornaram-se virais: desde Donald Trump a narrar duelos de videojogos com linguagem grosseira, a Emma Watson a ler Mein Kampf, passando por Joe Rogan a promover esquemas fraudulentos. Pior ainda, criminosos começaram a usar tecnologias de clonagem de voz para imitar familiares e enganar vítimas, roubando milhões através de fraudes sofisticadas de deepfake.
Nada disso travou o entusiasmo dos investidores. A ElevenLabs já reuniu mais de US$ 300 milhões (258,11 milhões de euros), atingindo uma valorização de US$ 6,6 mil milhões (5,6 mil milhões de euros) em outubro, tornando-se uma das startups mais valiosas da Europa. Staniszewski, 30 anos, que atua como CEO, e Dabkowski, também de 30 anos e chefe de investigação, são agora bilionários, cada um com um património estimado em pouco mais de US$ 1 mil milhão (860,37 milhões de euros).

Metade dos US$ 193 milhões (166,05 milhões de euros) de receita dos últimos 12 meses veio de empresas como a Cisco, a Twilio e a agência de recrutamento suíça Adecco, que utilizam a tecnologia para atendimento ao cliente ou entrevistas com candidatos. A Epic Games usa as vozes da ElevenLabs em personagens do Fortnite, incluindo um diálogo com Darth Vader (com autorização do espólio de James Earl Jones). A outra metade da receita vem de YouTubers, podcasters e autores que adotaram a tecnologia desde o início. “Quando fala com eles, percebe de imediato o quão bons são”, afirma Tom Coshow, analista da Gartner. Ao contrário da maioria das empresas de IA, a ElevenLabs já é lucrativa. A Forbes estima que tenha registado lucros de US$ 116 milhões (99,8 milhões de euros) nos últimos 12 meses, uma margem de 60%.
A empresa disputa agora o título de referência mundial na geração de voz com gigantes como Google, Microsoft, Amazon e OpenAI. Embora este não seja um campo novo — as tecnológicas exploram ferramentas de fala há cerca de uma década —, a ElevenLabs destaca-se. A Microsoft chegou a pagar US$ 20 mil milhões (17,2 mil milhões de euros) pela Nuance, uma empresa de transcrição de voz, em março de 2022. A OpenAI lançou a sua própria ferramenta de voz no ChatGPT em outubro de 2024.
No entanto, com uma equipa de cerca de 300 pessoas, a ElevenLabs não parece em desvantagem. Os seus modelos são tão avançados que a empresa consegue cobrar até três vezes mais do que os concorrentes norte-americanos. A sua biblioteca de 10.000 vozes quase indistinguíveis de vozes humanas reais é a maior do mercado, incluindo nomes de peso como Michael Caine e Matthew McConaughey. Também é mais robusta. Num teste conduzido pela startup Labelbox, que comparou seis modelos líderes, a ElevenLabs cometeu metade dos erros do modelo da OpenAI. “Somos uma das poucas empresas que está à frente da OpenAI, não só em voz, mas também em conversão de voz para texto e música. Isso é extremamente difícil”, afirma Staniszewski. Segundo ele, o foco rigoroso num único problema, combinado com recursos limitados — os fundadores avançaram com os primeiros US$ 100.000 (86.037€) — obrigou a equipa a soluções mais criativas. “Ter demasiada capacidade computacional pode ser uma maldição. Deixa-se de pensar como resolver o problema de forma inteligente”, explica Dabkowski.
Ainda assim, um processo judicial movido por dois narradores de audiolivros levantou dúvidas. Karissa Vacker e Mark Boyett alegaram que a ElevenLabs utilizou milhares de audiolivros protegidos por direitos de autor para treinar os seus modelos. Segundo afirmam, tantos dos seus livros teriam sido copiados que clones das suas vozes acabaram por surgir como opções padrão. O caso foi resolvido fora dos tribunais em novembro.
Com o crescimento, chegou também alguma maturidade. A empresa criou uma lista de vozes proibidas — sobretudo políticos e celebridades — depois de um clone da voz de Joe Biden ter sido usado numa campanha de chamadas automáticas para desencorajar o voto nas primárias democratas de 2024. Hoje, a ElevenLabs tem sete moderadores humanos (além de sistemas de IA) a monitorizar o uso indevido das suas vozes. Novos clones exigem provas de consentimento, e a empresa disponibiliza um detetor de deepfake gratuito.
Os planos vão além da voz. A ElevenLabs lançou um gerador de música com IA em agosto, respondendo a pedidos de criadores e empresas que precisavam de faixas livres de direitos. No próximo ano, vai disponibilizar avatares de IA capazes de apresentar vídeos ao estilo Sora. A ambição é mais ampla: construir uma plataforma centralizada que permita aos clientes gerir todas as suas ferramentas de IA num só lugar. “Estamos a criar uma plataforma que permite desenvolver agentes de voz e implementá-los facilmente”, diz Staniszewski.
Mas o caminho pela frente é competitivo. Outras startups seguem a mesma direção e as grandes tecnológicas dispõem de recursos praticamente ilimitados. A vantagem da ElevenLabs é a sua rentabilidade e a rapidez com que inovou. No entanto, os modelos de voz tendem a tornar-se produtos indiferenciados. Quando os concorrentes atingirem o mesmo nível de qualidade, os clientes — já cautelosos com preços elevados — poderão mudar de fornecedor.
À medida que avança para áreas mais exigentes em termos computacionais, como música e vídeo, a ElevenLabs precisa de reforçar a sua infraestrutura. Já investiu US$ 50 milhões (43 milhões de euros) num centro de dados no Oregon. “Se queremos construir uma empresa geracional em IA, precisamos de escala — e é isso que estamos a fazer”, sublinha Staniszewski.
Na Polónia, os narradores tradicionais ainda continuam ativos, por enquanto. Dabkowski, no entanto, não esquece a motivação original da ElevenLabs, e garante que o próximo modelo será capaz de traduzir e dobrar um filme inteiro de uma só vez. “Nunca desistimos das nossas missões”, afirma.
Iain Martin/Forbes Internacional





