Conversão de fala em fala (Amazon Nova 2 Sonic)

O Amazon Nova 2 Sonic possibilita uma IA conversacional em tempo real com entrada e saída de voz. A seção a seguir aborda recursos avançados para criar assistentes de voz interativos, automação de atendimento ao cliente e aplicações de conversação.

Recursos principais

O Amazon Nova 2 Sonic fornece os seguintes recursos:

Compreensão de fala em streaming de última geração com API de streaming bidirecional que possibilita conversas em tempo real, com baixa latência e em vários turnos.
Suporte multilíngue com detecção e troca automáticas de idioma. São oferecidas vozes expressivas, incluindo vozes masculinas e femininas, nos seguintes idiomas:
- Inglês (EUA, Reino Unido, Índia, Austrália)
- Francesa
- Italiana
- Alemã
- Espanhola
- Portuguesa
- Hindi
Vozes poliglotas que podem falar qualquer um dos idiomas compatíveis para permitir uma experiência de usuário consistente, mesmo quando este muda de idioma na mesma sessão.
Robustez a ruídos de fundo para cenários de implantação no mundo real.
Robustez a diferentes sotaques para idiomas compatíveis.
Experiências de IA conversacional naturais e semelhantes às humanas com riqueza contextual em todos os idiomas compatíveis.
Resposta de fala adaptativa que ajusta dinamicamente a entrega com base na prosódia da fala de entrada.
Alternância de turnos inteligente que detecta quando os usuários terminam de falar e quando o assistente deve responder, criando um ritmo natural de diálogo.
Tratamento amigável das interrupções do usuário sem perder o contexto da conversa.
Fundamentação de conhecimento com dados empresariais usando geração aumentada via recuperação (RAG).
Chamada de função e compatibilidade com fluxo de trabalho agêntico para criar aplicações complexas de IA.
Manipulação assíncrona de ferramentas que executa chamadas de ferramentas enquanto mantém o fluxo da conversa, permitindo que o assistente continue falando enquanto as ferramentas são processadas em segundo plano.
Suporte de entrada intermodal para entradas de áudio e texto na mesma conversa, possibilitando padrões de interação flexíveis.
Limite de conexão de oito minutos, com renovação da conexão e padrão de continuação da sessão disponíveis em exemplos de código.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Compreensão multimodal

Introdução