View a markdown version of this page

Conversão de fala em fala (Amazon Nova 2 Sonic) - Amazon Nova

Conversão de fala em fala (Amazon Nova 2 Sonic)

O Amazon Nova 2 Sonic possibilita uma IA conversacional em tempo real com entrada e saída de voz. A seção a seguir aborda recursos avançados para criar assistentes de voz interativos, automação de atendimento ao cliente e aplicações de conversação.

Atributos principais

O Amazon Nova 2 Sonic fornece os seguintes recursos:

  • Compreensão de fala em streaming de última geração com API de streaming bidirecional que possibilita conversas em tempo real, com baixa latência e em vários turnos.

  • Suporte multilíngue com detecção e troca automáticas de idioma. São oferecidas vozes expressivas, incluindo vozes masculinas e femininas, nos seguintes idiomas:

    • Inglês (EUA, Reino Unido, Índia, Austrália)

    • Francesa

    • Italiana

    • Alemã

    • Espanhola

    • Portuguesa

    • Hindi

  • Vozes poliglotas que podem falar qualquer um dos idiomas compatíveis para permitir uma experiência de usuário consistente, mesmo quando este muda de idioma na mesma sessão.

  • Robustez a ruídos de fundo para cenários de implantação no mundo real.

  • Robustez a diferentes sotaques para idiomas compatíveis.

  • Experiências de IA conversacional naturais e semelhantes às humanas com riqueza contextual em todos os idiomas compatíveis.

  • Resposta de fala adaptativa que ajusta dinamicamente a entrega com base na prosódia da fala de entrada.

  • Alternância de turnos inteligente que detecta quando os usuários terminam de falar e quando o assistente deve responder, criando um ritmo natural de diálogo.

  • Tratamento amigável das interrupções do usuário sem perder o contexto da conversa.

  • Fundamentação de conhecimento com dados empresariais usando geração aumentada via recuperação (RAG).

  • Chamada de função e compatibilidade com fluxo de trabalho agêntico para criar aplicações complexas de IA.

  • Manipulação assíncrona de ferramentas que executa chamadas de ferramentas enquanto mantém o fluxo da conversa, permitindo que o assistente continue falando enquanto as ferramentas são processadas em segundo plano.

  • Suporte de entrada intermodal para entradas de áudio e texto na mesma conversa, possibilitando padrões de interação flexíveis.

  • Limite de conexão de oito minutos, com renovação da conexão e padrão de continuação da sessão disponíveis em exemplos de código.