A Kyutai Labs lançou na quarta-feira o Moshi AI, um chatbot de inteligência artificial (IA) que responde verbalmente em tempo real. A empresa francesa de IA anunciou que todo o modelo de linguagem de áudio do Moshi foi desenvolvido internamente. Ele também pode modular a voz para expressar emoções e responder em vários estilos de fala. O modelo de IA pode ser acessado pelo público, gratuitamente. Atualmente, o modelo de IA restringe as conversas a cinco minutos. Curiosamente, a OpenAI também anunciou recursos de fala semelhantes com o lançamento do GPT-4o, mas ele ainda não foi lançado.
Recursos do Moshi AI
A empresa estados que o modelo de IA foi desenvolvido em seis meses com uma equipe de oito pessoas. Ao revelar o modelo de IA em um evento em Paris, o Kyutai Labs disse que Moshi não é um assistente de IA, mas um protótipo que pode ser usado para desenvolver ferramentas para diferentes casos de uso. Ele também tornou o chatbot disponível publicamente aqui. Os usuários podem inserir seus e-mails e entrar na fila, mas os funcionários do Gadgets 360 conseguiram acesso imediato à plataforma sem nenhum tempo de espera.
Ontem, apresentamos o Moshi, a IA de conversação de menor latência já lançada. O Moshi pode fazer pequenas conversas, explicar vários conceitos, se envolver em roleplay em muitas emoções e estilos de fala. Fale com o Moshi aqui https://t.co/a4EbAQiih7 e saiba mais sobre o método abaixo 🧵. foto.twitter.com/NkJRybTRLQ
— kyutai (@kyutai_labs) 4 de julho de 2024
A interface da plataforma é bem minimalista. Há um design de IA simplificado onde os usuários podem verificar o volume de sua voz quando falam. Há uma caixa de texto onde apenas as respostas da IA aparecem. Outra caixa perto do topo exibe detalhes técnicos como duração do áudio, latência e áudio perdido.
Bem no topo, há um botão para desconectar a chamada. Atualmente, a duração máxima da chamada pode ser de cinco minutos. A página de descrição destaca que Moshi pode pensar, falar e ouvir ao mesmo tempo para maximizar o fluxo da conversa.
O Gadgets 360 descobriu que a latência é extremamente baixa, e a IA frequentemente responde instantaneamente. No entanto, há algumas instâncias em que o atraso no tempo de resposta pode exceder 10-15 segundos. Mas isso pode ser devido à carga pesada do servidor. No entanto, às vezes os prompts verbais não eram registrados, mesmo depois que três quartos do medidor de volume eram preenchidos.
O Gadgets 360 também descobriu que o modelo de IA pode responder com uma voz emotiva, e pode falar em diferentes estilos e usando várias modulações de voz. O modelo de IA também é conectado à Internet e pode buscar respostas para as consultas que exigem a busca na web. Notavelmente, o chatbot não permite prompts de texto, e a voz é o único meio para interagir com ele.
A Kyutai Labs declarou que o modelo de IA será de código aberto. No entanto, a empresa de IA ainda precisa hospedar os pesos e o código do modelo em um portal. Uma vez disponível, os usuários poderão baixá-lo e instalá-lo localmente, e pode ser executado em um dispositivo desconectado.
source – www.gadgets360.com