# Conversão de fala em fala (Amazon Nova 2 Sonic)
<a name="using-conversational-speech"></a>

O Amazon Nova 2 Sonic possibilita uma IA conversacional em tempo real com entrada e saída de voz. A seção a seguir aborda recursos avançados para criar assistentes de voz interativos, automação de atendimento ao cliente e aplicações de conversação.

## Atributos principais
<a name="sonic-key-features"></a>

O Amazon Nova 2 Sonic fornece os seguintes recursos:
+ Compreensão de fala em streaming de última geração com API de streaming bidirecional que possibilita conversas em tempo real, com baixa latência e em vários turnos.
+ Suporte multilíngue com detecção e troca automáticas de idioma. São oferecidas vozes expressivas, incluindo vozes masculinas e femininas, nos seguintes idiomas:
  + Inglês (EUA, Reino Unido, Índia, Austrália)
  + Francesa
  + Italiana
  + Alemã
  + Espanhola
  + Portuguesa
  + Hindi
+ Vozes poliglotas que podem falar qualquer um dos idiomas compatíveis para permitir uma experiência de usuário consistente, mesmo quando este muda de idioma na mesma sessão.
+ Robustez a ruídos de fundo para cenários de implantação no mundo real.
+ Robustez a diferentes sotaques para idiomas compatíveis.
+ Experiências de IA conversacional naturais e semelhantes às humanas com riqueza contextual em todos os idiomas compatíveis.
+ Resposta de fala adaptativa que ajusta dinamicamente a entrega com base na prosódia da fala de entrada.
+ Alternância de turnos inteligente que detecta quando os usuários terminam de falar e quando o assistente deve responder, criando um ritmo natural de diálogo.
+ Tratamento amigável das interrupções do usuário sem perder o contexto da conversa.
+ Fundamentação de conhecimento com dados empresariais usando geração aumentada via recuperação (RAG).
+ Chamada de função e compatibilidade com fluxo de trabalho agêntico para criar aplicações complexas de IA.
+ Manipulação assíncrona de ferramentas que executa chamadas de ferramentas enquanto mantém o fluxo da conversa, permitindo que o assistente continue falando enquanto as ferramentas são processadas em segundo plano.
+ Suporte de entrada intermodal para entradas de áudio e texto na mesma conversa, possibilitando padrões de interação flexíveis.
+ Limite de conexão de oito minutos, com renovação da conexão e padrão de continuação da sessão disponíveis em exemplos de código.