Configurar recursos de voz

Este artigo descreve os recursos disponíveis no Copilot Studio para resposta de voz interativa com Dynamics 365 Contact Center.

Para preparar seu agente para serviços de voz, consulte Integrate um agente habilitado para voz com Dynamics 365 Contact Center.

Para obter uma visão geral dos serviços de voz, consulte Usar resposta de voz interativa em seus agentes.

Modalidade de Fala e DTMF

Um agente habilitado para voz é diferente de um agente baseado em chat. O agente habilitado para voz inclui tópicos específicos do sistema de voz para lidar com cenários de voz. Um agente baseado em chat usa a modalidade de texto como padrão. Um agente habilitado para voz usa a modalidade de Fala e DTMF. As duas modalidades não são compatíveis entre si.

Otimizar para voz permite criar agentes habilitados para voz em diferentes modalidades e garante que os recursos relacionados à fala sejam criados corretamente.

Otimizar para voz

Se você não iniciou o agente usando o modelo de Voz, deverá habilitar a opção Otimizar para voz nas Configurações do agente.

Com um agente aberto, vá para Configurações>Voz.
Selecione Otimizar para voz. A opção Usar voz como modo de criação principal também é definida por padrão.

Seu agente recebe as seguintes atualizações quando você habilita Otimizar para voz e Usar a voz como modo autoria principal:

A possibilidade de criar recursos de voz quando alternado de texto para Voz & DTMF.
Os tópicos do sistema de voz Detecção de Silêncio, Fala não reconhecida e Tecla de discagem não reconhecida são automaticamente adicionados para lidar com cenários relacionados à fala.
Aumentar a precisão com os dados do agente (ativados por padrão), o que melhora a precisão do reconhecimento de fala.
O fluxo do agente existente não é alterado (como o tópico Menu Principal para iniciar conversas com gatilhos DTMF mapeados).

Importante

A configuração Otimizar para voz altera somente os recursos de criação de voz, não a configuração do canal. Ative o canal de Telefonia para um agente totalmente habilitado para voz.
Além disso, definir Otimizar para voz em um agente que não foi originalmente configurado para recursos de voz significa que o agente não terá o tópico Menu Principal (versão preliminar). Você deve recriar esse tópico, se necessário.
Se você não conseguir ativar a opção Otimizar para voz, verifique o ambiente do Power Platform que hospeda seu agente e garante que Obter acesso antecipado a novos recursos está desativado para esse ambiente. Para obter mais informações, consulte Não é possível ativar Otimizar para voz.

Desabilitar a otimização para voz

Desative Optimizar para voz na autoria de agente se você não usar o canal de telefonia. Depois de desativar o Optimize for voice, você verá as seguintes alterações:

Nenhuma criação de agente para recursos de voz, como DTMF e interrupção.
A modalidade padrão texto é definida.
Nenhuma melhora no reconhecimento de fala, uma vez que não há reconhecimento de fala.
Nenhum tópico do sistema de voz ou tópico de DTMF global.

Observação

Alguns tópicos podem relatar erros durante a publicação se ainda fizerem referência ao tópico DTMF (agora desativado).
Nenhuma alteração na configuração do fluxo e do canal do agente, pois desativar a otimização não remove o Canal de telefonia.
Habilitar ou desabilitar a opção Otimizar para voz só terá efeito depois que você publicar seu agente. Se você ativá-lo ou desativá-lo acidentalmente, e o agente alternar entre as modalidades, você terá tempo para corrigi-lo.

Importante

Se seus canais de Telefonia estiverem habilitados, desabilitar a opção Otimizar para voz poderá prejudicar seu agente, pois todos os gatilhos DTMF serão desativados automaticamente.

Usar a voz como seu modo de criação principal

Selecione a modalidade Speech &DTMF para cada nó na criação de recursos de voz. Selecione a preferência de criação do agente como usar a voz como modo de criação primário. Essa configuração garante que todos os campos de entrada tenham a modalidade certa. Se você já tiver habilitado Otimizar para voz, a opção Usar voz como modo de criação principal estará habilitada por padrão.

Disponibilidade de mensagem

Usar a modalidade de texto ou de fala pode afetar seu canal de forma diferente.

Modalidade de texto	Modalidade de fala	Canal de texto & fala do agente
Mensagem disponível	Mensagem vazia	Mensagem disponível
Mensagem vazia	Mensagem disponível	Mensagem não disponível

Reconhecimento de fala automático personalizado

Agentes habilitados para voz para um domínio específico, como médico ou financeiro, podem encontrar usuários que usam termos financeiros ou jargões médicos. Alguns termos e jargões são difíceis para o agente habilitado para voz converter de fala em texto.

Para garantir que a entrada de fala seja reconhecida com precisão, melhore o reconhecimento de fala:

Selecione Configurações>Voz em seu agente.
Selecione Aumentar a precisão com dados do agente para habilitar as configurações de reconhecimento de fala automático personalizadas do agente.
Selecione Salvar para confirmar suas alterações.
Publique seu agente para ver as novas alterações.

Referência de opções de voz no nível do agente

Use as configurações de voz para configurar os timeouts de vários recursos relacionados à voz. As configurações aplicadas nesta página tornam-se o padrão para tópicos criados em seu agente.

Para fazer alterações nas opções de tempo limite no nível do agente:

Vá até a página de Configurações do seu agente e selecione Voz.
Selecione as configurações desejadas e ajuste as configurações padrão do agente.
Selecione Salvar para confirmar suas alterações.

Configurações em nível de agente

A tabela a seguir lista cada opção e como ela se relaciona com as configurações de nível de nó.

Seção de nível de agente habilitado para voz	Configuração	Description	Valor padrão	Substituir nível de nó
DTMF	Tempo de inatividade interdígitos	Tempo máximo em milissegundos permitido enquanto aguarda a próxima entrada de chave DTMF. Aplica a entrada DTMF de vários dígitos somente quando os usuários não atendem ao tamanho máximo da entrada.	3000 milissegundos	Nó de pergunta com propriedades de voz para entrada DTMF de vários dígitos
DTMF	Tempo limite de terminação	Duração máxima em milissegundos para aguardar uma chave de terminação DTMF. O limite se aplica quando o usuário atinge o tamanho máximo de entrada e não pressiona a chave de término. Aplica-se somente à entrada DTMF de vários dígitos. Depois que o limite expira e a tecla DTMF de término não chegar, o agente encerrará o reconhecimento e retornará o resultado até aquele ponto. Se definido como "continuar sem esperar", o agente não aguarda a tecla de encerramento. O agente retorna imediatamente após o usuário inserir o tamanho máximo.	2000 ms	Nó de pergunta com propriedades de voz para entrada DTMF de vários dígitos
Detecção de silêncio	Tempo limite de detecção de silêncio	Silêncio máximo em milissegundos permitido enquanto aguarda a entrada do usuário. O limite se aplica quando o agente não detecta nenhuma entrada do usuário. O padrão é "sem tempo limite de silêncio". O agente aguarda infinitamente pela entrada do usuário. Detecção de silêncio para voz vezes o período depois que a voz terminar de falar.	Nenhum tempo limite de silêncio	Nó de pergunta com propriedades de voz para entrada DTMF de vários dígitos Tópico do sistema (propriedades do gatilho de detecção de silêncio) para Configurar a detecção de silêncio e tempos limite
Coleta de fala	Tempo limite final de enunciado	O limite se aplica quando o usuário pausa durante ou após a fala. Se a pausa for maior do que o limite de tempo, o agente presume que o usuário terminou de falar. O valor máximo para o tempo limite de término do enunciado é 3000 ms. Qualquer coisa acima de 3000 ms é ajustada para 3000 ms.	1500 ms	Nó de pergunta com propriedades de voz
Coleta de fala	Tempo limite de reconhecimento de fala	Determina quanto tempo o Agente permite para a entrada do usuário quando ele começa a falar. O valor padrão é de 12.000 milissegundos (cerca de 12 segundos). Nenhum tempo limite de reconhecimento significa tempo infinito. O agente reformula a pergunta. Se não houver resposta, a voz estará além do Tempo limite de reconhecimento de fala.	12.000 ms	Nó de pergunta com propriedades de voz
Mensagens de latência	Enviar atraso de mensagem	Determina quanto tempo o agente espera antes de entregar a mensagem de latência após o início de uma solicitação de operação em segundo plano. O tempo é definido em milissegundos.	500 ms	Propriedades do nó de Ação para operação de execução prolongada
Mensagens de latência	Tempo mínimo de reprodução	A mensagem de latência será reproduzida por um período mínimo de tempo, mesmo se a operação em segundo plano for concluída enquanto a mensagem estiver sendo reproduzida. O tempo é definido em milissegundos.	5000 ms	Propriedades do modo de Ação para operação de execução prolongada
Sensibilidade à fala	Confidencialidade	Controla como o sistema equilibra a detecção de fala e ruído de fundo. Diminua a sensibilidade para ambientes barulhentos, espaços públicos e operação mãos-livres. Aumente a sensibilidade para ambientes silenciosos, usuários de fala suave ou detecção de comandos de voz. A configuração padrão é 0,5.	0,5	There não há substituições de nível de nó para este controle.

Habilitar a interrupção

Quando você habilita a entrada, os usuários do agente podem interromper seu agente. Esse recurso é útil quando o usuário do agente não precisa ouvir a mensagem inteira. Por exemplo, os chamadores podem já conhecer as opções do menu, porque as ouviram no passado. O usuário do agente pode inserir a opção desejada usando o barge-in, mesmo que o agente não tenha terminado de listar todas as opções.

Quando desabilitar a barcaça

Desative a interrupção se você tiver atualizado recentemente uma mensagem do agente ou se a mensagem de conformidade não deva ser interrompida.
Desative a interrupção para a primeira mensagem do agente para garantir que os usuários do agente estejam cientes de informações novas ou essenciais.

Especificações

O Barge-in oferece suporte a interrupções baseadas em DTMF e em voz do usuário agente.
Você pode controlar a entrada com cada mensagem em um lote. Posicione nós barge-in-disabled em sequência antes de cada nó em que a interrupção seja permitida. Caso contrário, o sistema tratará barge-in-disabled como uma mensagem de entrada de permissão.

Quando uma fila de processamento em lote é concluída, a configuração automática de intervenção é redefinida para o próximo lote. O sinalizador de interrupção em cada mensagem subsequente regula isso. Você poderá posicionar nós de interrupção desabilitada quando a sequência for iniciada novamente.

Dica

Se nós consecutivos de mensagem forem seguidos por um nó Questão, as mensagens de voz para esses nós serão agrupadas em um lote. Um processo começa com um nó de mensagem e para no nó de pergunta, que aguarda a entrada do usuário.

Evite desabilitar a interação para mensagens longas, especialmente se você espera que os usuários do agente interajam com frequência com o agente. Se o seu usuário agente já conhece as opções de menu, permita que ele faça autoatendimento onde deseja ir.

Configurar a interrupção

Selecione um nó de Mensagem ou Pergunta e defina a modalidade desejada como Speech & DTMF.
Selecione os três pontos (...) para o nó e selecione Propriedades.
- Em nós de Mensagem, o painel Enviar propriedades da atividade será aberto na lateral da tela de criação.
  
  Selecione Permitir interrupção.
- Em nós de Pergunta, o painel Propriedades da pergunta será aberto. Selecione Voz.
  
  Nas propriedades de Voz, selecione Permitir interrupção.
Salve o tópico.

Configurar a detecção de silêncio e tempos limite

A detecção de silêncio permite que você configure quanto tempo o agente aguarda a entrada do usuário e a ação que ele toma se o agente não receber nenhuma entrada. A detecção de silêncio é mais útil em resposta a uma pergunta no nível do nó ou quando o Agente aguarda uma frase de gatilho para iniciar um novo tópico.

Você pode configurar os tempos limite padrão para os tópicos.

Para substituir os padrões para um nó:

Selecione os três pontos (...) para o nó e selecione Propriedades.

O painel Propriedades da pergunta será aberto.

Selecione Voz e faça ajustes nas seguintes configurações:

Opção de tempo limite de detecção de silêncio	Description
Usar configuração do agente	O nó usa a configuração global para a detecção de silêncio.
Desabilitar para este nó	O Agente aguarda indefinidamente por uma resposta.
Personalizar em milissegundos	O Agente aguarda um tempo especificado antes de repetir a pergunta.

Ação de fallback

Você pode configurar alguns comportamentos como uma ação de fallback:

Quantas vezes o agente deve repetir uma pergunta
O que a mensagem de nova solicitação deve dizer
O que o agente deve fazer após um número especificado de repetições

Entrada de fala

Para entrada de fala, especifique valores para as seguintes configurações:

Tempo limite de término do enunciado: quanto tempo o agente aguarda após o usuário terminar de falar.
Tempo limite de reconhecimento de fala: quanto tempo o agente dá ao usuário quando ele começa a responder.

Para configurar o comportamento de detecção de silêncio quando o agente espera por uma frase de gatilho, ajuste as configurações no tópico do sistema Em silêncio.

Adicionar uma mensagem de latência para operações de execução prolongada

Para operações de back-end longas, seu agente pode enviar uma mensagem aos usuários para notificá-los sobre os processos mais longos. Os agentes em um canal de mensagens também podem enviar uma mensagem de latência.

Reprodução de áudio de mensagem de latência	Mensagem de latência no chat
Continua a fazer loop até que a operação seja concluída.	Enviado somente uma vez quando a latência especificada é atingida.

No Copilot Studio, seu agente pode repetir uma mensagem depois de disparar um fluxo de Power Automate:

Adicione um nó de Ação que aciona um fluxo..
Selecione os três pontos (...) do nó e, em seguida, selecione Propriedades. O painel Propriedades da ação será aberto.
Selecione Enviar uma mensagem.
Na seção Mensagem, insira o que você deseja que o agente diga. Use SSML para modificar o som da mensagem. O Agente repete a mensagem até que o fluxo seja concluído.

Você pode ajustar quanto tempo o agente deve esperar antes de repetir a mensagem na seção Atraso. Defina um período mínimo de tempo para aguardar, mesmo que o fluxo seja concluído.

Configurar o encerramento da chamada

Para configurar o agente para encerrar a chamada e finalizar a conversa, adicione um novo nó (+) e selecione Gerenciamento de tópicos>Encerrar conversa.

Captura de tela de um novo menu de nó com Gerenciamento de tópicos e Encerrar a conversa realçados.

Detectar computadores de resposta

Você pode configurar seu agente para detectar um computador de resposta e deixar uma mensagem com o usuário do agente após a conclusão da mensagem do usuário do agente. O tópico do sistema de Detecção de Máquina de Resposta permite que você crie uma mensagem customizada para cenários quando o agente encontrar a caixa postal de um usuário. No nó Mensagem , defina a mensagem deixada quando o agente encontrar um computador de resposta.

Formatar síntese de fala com SSML

Use a SSML (linguagem de marcação de síntese de fala) para alterar a forma como o agente soa quando lê mensagens em voz alta. Por exemplo, você pode alterar o tom ou a frequência das palavras faladas, a velocidade e o volume.

SSML usa marcas para delimitar o texto que você deseja modificar, semelhante ao HTML. Use as seguintes tags no Copilot Studio:

Marca SSML	Description	Link para a documentação do serviço de fala
`<audio src="_URL to an audio file_"/>`	Adicione a URL a um arquivo de áudio na marca. O arquivo deve ser acessível para o usuário do agente.	Adicionar áudio gravado
`<break />`	Insira pausas ou intervalos entre as palavras. Insira opções de intervalo na marca.	Adicionar um intervalo
`<emphasis>` Texto que você deseja modificar`</emphasis>`	Adicione níveis de estresse às palavras ou frases. Adicione opções de ênfase na marca de abertura. Adicione a marca de fechamento após o texto que você deseja modificar.	Ajustar opções de ênfase
`<prosody>` Texto que você deseja modificar`</prosody>`	Especifique as alterações de tom, contorno, intervalo, taxa e volume. Adicione opções de prosódia na marca de abertura. Adicione a marca de fechamento após o texto que você deseja modificar.	Ajustar opções de prosódia
`<lang xml:lang="xx-XX">` Texto que você deseja modificar`</lang>`	Ajuste o idioma falado dentro da mesma mensagem ao usar uma voz neural multilíngue.	Ajustar os idiomas falados

Observação

Ao usar a tag <audio src="_URL to an audio file_"/>, se você armazenar a URL em uma variável, codifique a URL antes de inseri-la na tag SSML de src de áudio na mensagem. Use a função EncodeHTML Power Fx para codificar a URL ao atribuí-la a uma variável na ação de atribuição.

Captura de tela de uma mensagem de fala com tags SSML adicionadas.

Encontrar e usar uma marca

SSML usa marcas para delimitar o texto que você deseja modificar, como o HTML.

Use as seguintes tags no Copilot Studio:

Selecione um nó de Mensagem ou Pergunta . Altere o modo para Fala &DTMF.
Selecione o menu Marcas SSML e selecione uma marca.

A caixa de mensagem será preenchida com a marca. Se já tiver texto na caixa de mensagem, o código da marca será acrescentado ao final da mensagem.
Envolva o texto que deseja modificar com as marcas de abertura e fechamento. Você pode combinar várias marcas e personalizar partes individuais da mensagem com marcas individuais.

Dica

Você também pode inserir manualmente as marcas SSML que não aparecem no menu auxiliar. Para saber mais sobre outras marcas disponíveis, consulte Aprimorar a síntese com Speech Synthesis Markup Language.

Transferir uma chamada para um representante ou número de telefone externo

Você pode fazer com que o agente transfira a chamada para um número de telefone externo. Copilot Studio dá suporte a transferência sem intervenção para um número de telefone PSTN e número de roteamento direto.

Observação

As transferências de chamada também podem ser tratadas usando cabeçalhos X SIP. Para mais informações, veja Configurar X-headers SIP para agentes habilitados por voz.

Para transferir para um número de telefone externo:

No tópico que você deseja modificar, adicione um novo nó (+). No menu do nó, selecione Gerenciamento de tópicos e selecione Transferir conversa.
Em Tipo de transferência, selecione Transferência para número de telefone externo e insira o número de telefone.
(Opcionalmente) adicione um cabeçalho SIP UUI ao telefonema.

Esse cabeçalho é uma cadeia de pares key=value, sem espaços ou caracteres especiais, exibida para leitura por sistemas externos.
1. Selecione os três pontos (...) do nó e, em seguida, selecione Propriedades. O painel propriedades de Transferir conversa será aberto.
2. Em cabeçalho SIP UUI, insira as informações que deseja enviar com a transferência de chamada. Não há suporte a variáveis durante a transferência para um número de telefone externo.
Cuidado

Apenas os primeiros 256 caracteres da string são enviados. O cabeçalho aceita somente números, letras, sinais de igualdade (=) e ponto e vírgula (;). Não há suporte a todos os outros caracteres, incluindo espaços, chaves e colchetes, ou fórmulas, e podem causar uma falha na transferência.

Dica

Inclua um + no número de telefone para o código do país correspondente.

A saída de transferência com SIP UUI para o número de telefone de destino deve usar roteamento direto. Os números de Telefone da PSTN (Rede telefônica pública comutada) não oferecem suporte a transferências de cabeçalho SIP UUI.

Para transferir para um representante, consulte Gatilhos explícitos.

Usar variáveis de voz

Copilot Studio dá suporte à população de variáveis. Você pode usar variáveis predefinidas ou criar as personalizadas.

Observação

Para obter mais informações sobre como usar e criar variáveis no Copilot Studio, consulte Trabalho com variáveis.
Para obter informações sobre outras atividades adicionais e variáveis de conversa disponíveis para agentes habilitados para voz, consulte Variáveis para agentes habilitados para voz.

Um agente habilitado para voz no Copilot Studio dá suporte a variáveis de contexto. Essas variáveis ajudam você a integrar suas conversas de agente com Dynamics 365 Contact Center ao transferir uma chamada.

Para obter mais informações sobre variáveis de contexto no Dynamics 365 Contact Center, consulte Context variáveis para bots do Copilot Studio.

Esta integração oferece suporte a estes cenários com as seguintes variáveis quando você transfere:

Variável	Tipo	Description
`System.Activity.From.Name`	String	O ID do chamador do usuário do agente
`System.Activity.Recipient.Name`	String	O número usado para ligar ou conectar-se ao agente
`System.Conversation.SipUuiHeaderValue`	String	Valor do cabeçalho SIP ao transferir por meio de um número de telefone de roteamento direto
`System.Activity.UserInputType`	String	Se o usuário do agente usou DTMF ou fala na conversa
`System.Activity.InputDTMFKey`	String	A entrada DTMF bruta do usuário do agente
`System.Conversation.OnlyAllowDTMF`	booleano	O Serviço de Voz ignora a entrada de fala quando definida como verdadeiro
`System.Activity.SpeechRecognition.Confidence`	Número	O valor de confiança (entre 0 e 1) do último evento de reconhecimento de fala
`System.Activity.SpeechRecognition.MinimalFormattedText`	String	Resultados de reconhecimento de fala (como texto bruto) antes de o Copilot Studio aplicar seu modelo dedicado de reconhecimento vocal natural

Observação

Um agente com frases de gatilho grandes e dimensionamento de entidade leva mais tempo para ser publicado.
Se vários usuários publicarem o mesmo agente ao mesmo tempo, sua ação de publicação será bloqueada. Você precisará republicar o agente depois que os outros terminarem suas edições existentes do agente.

Para saber mais sobre os fundamentos da publicação, consulte Principais conceitos - Publicar e implantar seu agente.

Comentários

Esta página foi útil?

Last updated on 2026-03-07

Compartilhar via

Configurar recursos de voz

Modalidade de Fala e DTMF

Otimizar para voz

Desabilitar a otimização para voz

Usar a voz como seu modo de criação principal

Disponibilidade de mensagem

Reconhecimento de fala automático personalizado

Referência de opções de voz no nível do agente

Configurações em nível de agente

Habilitar a interrupção

Quando desabilitar a barcaça

Especificações

Configurar a interrupção

Configurar a detecção de silêncio e tempos limite

Ação de fallback

Entrada de fala

Adicionar uma mensagem de latência para operações de execução prolongada

Configurar o encerramento da chamada

Detectar computadores de resposta

Formatar síntese de fala com SSML

Encontrar e usar uma marca

Transferir uma chamada para um representante ou número de telefone externo

Usar variáveis de voz

Comentários

Recursos adicionais