Conversão de fala em fala (Amazon Nova 2 Sonic)
O Amazon Nova 2 Sonic possibilita uma IA conversacional em tempo real com entrada e saída de voz. A seção a seguir aborda recursos avançados para criar assistentes de voz interativos, automação de atendimento ao cliente e aplicações de conversação.
Atributos principais
O Amazon Nova 2 Sonic fornece os seguintes recursos:
-
Compreensão de fala em streaming de última geração com API de streaming bidirecional que possibilita conversas em tempo real, com baixa latência e em vários turnos.
-
Suporte multilíngue com detecção e troca automáticas de idioma. São oferecidas vozes expressivas, incluindo vozes masculinas e femininas, nos seguintes idiomas:
-
Inglês (EUA, Reino Unido, Índia, Austrália)
-
Francesa
-
Italiana
-
Alemã
-
Espanhola
-
Portuguesa
-
Hindi
-
-
Vozes poliglotas que podem falar qualquer um dos idiomas compatíveis para permitir uma experiência de usuário consistente, mesmo quando este muda de idioma na mesma sessão.
-
Robustez a ruídos de fundo para cenários de implantação no mundo real.
-
Robustez a diferentes sotaques para idiomas compatíveis.
-
Experiências de IA conversacional naturais e semelhantes às humanas com riqueza contextual em todos os idiomas compatíveis.
-
Resposta de fala adaptativa que ajusta dinamicamente a entrega com base na prosódia da fala de entrada.
-
Alternância de turnos inteligente que detecta quando os usuários terminam de falar e quando o assistente deve responder, criando um ritmo natural de diálogo.
-
Tratamento amigável das interrupções do usuário sem perder o contexto da conversa.
-
Fundamentação de conhecimento com dados empresariais usando geração aumentada via recuperação (RAG).
-
Chamada de função e compatibilidade com fluxo de trabalho agêntico para criar aplicações complexas de IA.
-
Manipulação assíncrona de ferramentas que executa chamadas de ferramentas enquanto mantém o fluxo da conversa, permitindo que o assistente continue falando enquanto as ferramentas são processadas em segundo plano.
-
Suporte de entrada intermodal para entradas de áudio e texto na mesma conversa, possibilitando padrões de interação flexíveis.
-
Limite de conexão de oito minutos, com renovação da conexão e padrão de continuação da sessão disponíveis em exemplos de código.