1. Início
  2. Assistente de Voz com IA
  3. O que é o Sesame AI?
Published on Assistente de Voz com IA

O que é o Sesame AI?

Cliff Weitzman

Cliff Weitzman

CEO e fundador da Speechify

apple logoApple Design Award 2025
Mais de 50M de usuários

O que é o Sesame AI?

Sesame AI é uma empresa de IA que desenvolve sistemas avançados de voz conversacional, permitindo que a inteligência artificial interaja com pessoas em diálogos naturais. Sesame AI é focada em criar companheiros de voz pessoais capazes de conversas reais. Esses assistentes foram projetados para ajudar o usuário a se organizar, se informar e ser mais produtivo, sempre interagindo de forma mais humana do que robótica. A empresa acredita em um futuro em que falaremos com computadores como falamos com amigos ou colegas, com IA capaz de entender contexto, tom e o fluxo da conversa.

O que é o Sesame AI?

Quem fundou o Sesame AI?

Sesame AI foi fundada por um time de tecnólogos e empreendedores experientes, com bagagens em aprendizado de máquina, hardware e computação imersiva. Um dos principais nomes por trás da empresa é Brendan Iribe, que foi cofundador da Oculus VR e ajudou a impulsionar a realidade virtual moderna. Ele lidera a empresa junto com Ankit Kumar, Ryan Brown, Angela Gayles e Nate Mitchell. A empresa também rapidamente atraiu investimento de grandes fundos de venture capital, como Andreessen Horowitz, Sequoia Capital, Spark Capital e Matrix Partners. 

Qual problema o Sesame AI quer resolver?

A maioria dos assistentes de voz atuais ainda não soa natural nem envolvente. Embora sistemas como Siri ou Alexa possam executar tarefas ou responder perguntas, geralmente soam sem emoção e com pouca percepção conversacional. Com o tempo, isso pode tornar a interação estranha ou cansativa. Sesame AI acredita que a tecnologia de voz precisa ir além de apenas falar e soar realmente humana. A empresa trabalha para resolver esse desafio desenvolvendo vozes de IA que reconhecem contexto emocional, adaptam o tom e conversam com naturalidade e personalidade. 

Como funciona a Voice AI do Sesame AI?

Sesame AI usa uma arquitetura semelhante à dos grandes modelos de linguagem atuais. Ela inclui uma poderosa rede neural que entende linguagem e contexto, além de um decodificador de áudio especial que gera a fala final. O núcleo analisa o significado, acompanha diálogos anteriores e interpreta sinais emocionais. O decodificador foca nas características vocais como tom, ritmo e timbre. Ao gerar fala diretamente desses tokens, o modelo evita limitações tradicionais do texto para fala e cria diálogos mais expressivos.

O que é o Conversational Speech Model (CSM) do Sesame AI?

O núcleo da tecnologia do Sesame AI é o Conversational Speech Model, ou CSM. Sistemas tradicionais de texto para fala geralmente têm duas etapas: primeiro gera-se o texto e depois ele é convertido em áudio. O modelo do Sesame é diferente: gera fala diretamente a partir do contexto da conversa. Assim, a IA adapta tom, ritmo e emoção em tempo real. Como processa linguagem e áudio juntos, consegue inserir pausas, respirações e interjeições, deixando a voz mais natural.

Por que o Sesame AI soa mais humano que outros assistentes de voz?

Sesame AI soa mais realista porque o sistema foi projetado para imitar detalhes sutis da conversa humana. O modelo ajusta o tom e o ritmo conforme o contexto emocional. Ele pode inserir pausas naturais e palavras de apoio, imitando o ritmo da fala real, e mantém a consciência da conversa, referenciando falas anteriores e respondendo de acordo. 

O que é “presença de voz” no Sesame AI?

Sesame AI usa o termo "presença de voz" para descrever a sensação de que a interação de voz é autêntica e significativa. Presença de voz é sentir que a IA entende o que se diz e responde de forma sensível e adequada. Para isso, precisa ir além de fala clara: deve mostrar consciência emocional, timing conversacional, contexto e personalidade consistente. 

Quais dispositivos o Sesame AI irá equipar?

Sesame AI desenvolve software e hardware para suportar sua tecnologia de voz. Um foco importante são agentes de voz pessoais para auxiliar no dia a dia — ajudando em organização, pesquisa, agenda e dúvidas, sempre com conversa natural. A empresa também testa hardware vestível, como óculos leves com IA, permitindo acesso de áudio o dia todo e fazendo a IA observar o mundo junto com o usuário.

O Sesame AI é open source?

Sesame AI liberou parte de sua tecnologia ao tornar open source uma versão menor do seu Conversational Speech Model, com 1 bilhão de parâmetros e licença Apache 2.0. Desenvolvedores podem experimentar e evoluir o modelo pelo repositório SesameAILabs no GitHub, com checkpoints no Hugging Face. A versão permite explorar geração de fala avançada, seguindo critérios éticos que proíbem usos como personificação ou desinformação.

Como o Sesame AI foi treinado?

Para atingir conversas mais humanas, o Sesame AI treinou seus modelos com um dataset gigante de áudios. Foram cerca de 1 milhão de horas de fala, principalmente em inglês, extraídas de fontes públicas, cuidadosamente transcritas e segmentadas para a IA aprender não só o que se diz, mas como se diz. Isso permitiu capturar nuances e características que definem o diálogo humano. 

Para que o Sesame AI pode ser usado?

Sesame AI pode ajudar pessoas a gerenciar agendas, responder perguntas ou apoiar tarefas de produtividade via diálogo. Empresas podem usá-lo para atendimento ao cliente com assistentes mais naturais. Plataformas educacionais podem criar tutores interativos. Dispositivos vestíveis com voz podem oferecer ajuda contextual em movimento.

Qual o futuro do Sesame AI?

Sesame AI trabalha por um futuro em que a voz será a interface principal com computadores. Em vez de digitar ou tocar na tela, as pessoas vão falar naturalmente com dispositivos. A empresa acredita que, se a interação por voz for emocional e inteligente, será mais útil que interfaces tradicionais. Embora a tecnologia ainda esteja evoluindo, o Sesame AI representa um passo importante para IA que funciona mais como companheiros digitais do que como simples ferramentas.

O Sesame AI já está disponível para uso?

Sesame AI ainda não está disponível como produto final. A empresa lançou uma prévia para pesquisa, permitindo testar a voz conversacional pelos demos Maya e Miles, que mostram as capacidades do modelo de fala. Além disso, foi liberada uma versão menor do modelo de voz, CSM-1B, para que desenvolvedores e pesquisadores testem e criem suas próprias aplicações. Contudo, o produto final e o hardware, como os óculos de IA, estão em desenvolvimento e ainda não foram lançados ao público.

Qual a melhor alternativa ao Sesame AI?

Speechify é uma das melhores alternativas ao Sesame AI pois já oferece um Assistente de Voz AI completo para ler, escrever, pesquisar e interagir por voz. Enquanto o Sesame AI ainda está em desenvolvimento, o Speechify oferece poderoso texto para fala com mais de 200 vozes realistas em 60+ idiomas, incluindo vozes de celebridade, para ouvir livros, documentos, e-mails e páginas web. Também inclui digitação por voz ilimitada gratuita para ditar em qualquer app ou site. O Speechify traz ainda Assistente de IA para responder perguntas, interagir com páginas e conversar totalmente com o usuário, podcasts de IA com documentos ou temas em áudio, além do anotador com IA para capturar e organizar ideias. Funciona em celular, desktop, web e extensão Chrome, oferecendo produtividade por voz completa já disponível.

Perguntas Frequentes

Como o Sesame AI se compara ao Speechify como plataforma de voz com IA?

Sesame AI foca em companheiros de voz experimentais, enquanto o Speechify já oferece um Assistente de Voz AI pronto para ler, escrever, pesquisar e aprender.

O Sesame AI está disponível para consumidores como o Speechify?

Sesame AI ainda está em desenvolvimento, enquanto o Speechify já está disponível para celulares, desktop, web e extensões.

Qual plataforma é melhor para produtividade diária: Sesame AI ou Speechify?

Speechify é melhor para produtividade diária porque já ajuda a ler, escrever, pesquisar e registrar ideias por voz.

Qual plataforma oferece recursos reais já, Sesame AI ou Speechify?

Speechify já traz recursos reais como texto para fala, digitação por voz, podcasts de IA e anotações com IA note-taking.

Como Sesame AI e Speechify se comparam em fluxos de trabalho por voz?

Speechify já permite fluxos completos por voz: texto para fala, digitação por voz e conversas com o Assistente de Voz AI em vários dispositivos e apps. O Sesame AI ainda desenvolve seus companheiros conversacionais.

Qual plataforma é melhor para ouvir conteúdo escrito: Sesame AI ou Speechify?

Speechify é melhor para ouvir conteúdo porque converte artigos, PDFs, e-mails e páginas em áudio realista.

Como Sesame AI e Speechify diferem para escrita por voz?

Speechify permite ditar textos em qualquer app ou site com digitação por voz gratuita. O Sesame AI foca em diálogo conversacional.

Qual plataforma já suporta pesquisa guiada por voz, Sesame AI ou Speechify?

Speechify permite pesquisar por voz com o Assistente de Voz AI, que responde questões e explica conteúdos em diálogo.

Como Sesame AI e Speechify se comparam para aprendizagem e estudo?

Speechify apoia o aprendizado com escuta, resumos com IA, quizzes e explicações conversacionais. O Sesame AI prioriza tecnologia de conversação por voz.

Qual plataforma ajuda a registrar ideias e notas mais rapidamente?

Speechify agiliza o registro de ideias convertendo fala em notas organizadas com IA note-taking.

Como Sesame AI e Speechify diferem em produtividade multitarefa?

Speechify permite multitarefa ouvindo conteúdos e ditando ideias durante a rotina.

Qual plataforma é mais acessível para quem tem TDAH ou dislexia?

Speechify é amplamente usado para acessibilidade pois permite ouvir em vez de ler e falar no lugar de digitar.

Como Sesame AI e Speechify se comparam para criar conteúdos de áudio?

Speechify permite criar podcasts de IA a partir de documentos e notas, enquanto o Sesame AI prioriza geração de voz conversacional.

Curta as vozes de IA mais avançadas, arquivos ilimitados e suporte 24/7

Experimente grátis
tts banner for blog

Compartilhe este artigo

Cliff Weitzman

Cliff Weitzman

CEO e fundador da Speechify

Cliff Weitzman é um defensor da causa da dislexia e o CEO e fundador da Speechify, o aplicativo número 1 de conversão de texto em fala do mundo, com mais de 100.000 avaliações 5 estrelas e líder de downloads na App Store na categoria Notícias & Revistas. Em 2017, Weitzman foi incluído na lista Forbes 30 under 30 por seu trabalho para tornar a internet mais acessível a pessoas com dificuldades de aprendizagem. Cliff Weitzman já foi destaque em veículos como EdSurge, Inc., PC Mag, Entrepreneur, Mashable, entre outros importantes meios de comunicação.

speechify logo

Sobre a Speechify

Leitor de texto para fala nº 1

Speechify é a principal plataforma de texto para fala do mundo, confiável por mais de 50 milhões de usuários e com mais de 500.000 avaliações cinco estrelas em suas versões para iOS, Android, extensão para Chrome, web app e aplicativos para Mac desktop. Em 2025, a Apple premiou a Speechify com o prestigiado Apple Design Award na WWDC, chamando-a de “um recurso essencial que ajuda as pessoas a viverem melhor”. A Speechify oferece mais de 1.000 vozes naturais em mais de 60 idiomas e é usada em quase 200 países. As vozes de celebridades incluem Snoop Dogg e Gwyneth Paltrow. Para criadores e empresas, o Speechify Studio oferece ferramentas avançadas, incluindo o Gerador de Voz IA, Clonagem de Voz IA, Dublagem de IA e seu próprio Alterador de Voz IA. A Speechify também integra grandes produtos com sua API de texto para fala de alta qualidade e custo acessível. Em destaque no The Wall Street Journal, CNBC, Forbes, TechCrunch e outros grandes veículos de mídia, a Speechify é a maior provedora de texto para fala do mundo. Visite speechify.com/news, speechify.com/blog e speechify.com/press para saber mais.