Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Este artigo descreve os recursos disponíveis no Copilot Studio para resposta de voz interativa com Dynamics 365 Contact Center.
Para preparar seu agente para serviços de voz, consulte Integrate um agente habilitado para voz com Dynamics 365 Contact Center.
Para obter uma visão geral dos serviços de voz, consulte Usar resposta de voz interativa em seus agentes.
Modalidade de Fala e DTMF
Um agente habilitado para voz é diferente de um agente baseado em chat. O agente habilitado para voz inclui tópicos específicos do sistema de voz para lidar com cenários de voz. Um agente baseado em chat usa a modalidade de texto como padrão. Um agente habilitado para voz usa a modalidade de Fala e DTMF. As duas modalidades não são compatíveis entre si.
Otimizar para voz permite criar agentes habilitados para voz em diferentes modalidades e garante que os recursos relacionados à fala sejam criados corretamente.
Otimizar para voz
Se você não iniciou o agente usando o modelo de Voz, deverá habilitar a opção Otimizar para voz nas Configurações do agente.
Com um agente aberto, vá para Configurações>Voz.
Selecione Otimizar para voz. A opção Usar voz como modo de criação principal também é definida por padrão.
Seu agente recebe as seguintes atualizações quando você habilita Otimizar para voz e Usar a voz como modo autoria principal:
- A possibilidade de criar recursos de voz quando alternado de texto para Voz & DTMF.
- Os tópicos do sistema de voz Detecção de Silêncio, Fala não reconhecida e Tecla de discagem não reconhecida são automaticamente adicionados para lidar com cenários relacionados à fala.
- Aumentar a precisão com os dados do agente (ativados por padrão), o que melhora a precisão do reconhecimento de fala.
- O fluxo do agente existente não é alterado (como o tópico Menu Principal para iniciar conversas com gatilhos DTMF mapeados).
Importante
- A configuração Otimizar para voz altera somente os recursos de criação de voz, não a configuração do canal. Ative o canal de Telefonia para um agente totalmente habilitado para voz.
- Além disso, definir Otimizar para voz em um agente que não foi originalmente configurado para recursos de voz significa que o agente não terá o tópico Menu Principal (versão preliminar). Você deve recriar esse tópico, se necessário.
- Se você não conseguir ativar a opção Otimizar para voz, verifique o ambiente do Power Platform que hospeda seu agente e garante que Obter acesso antecipado a novos recursos está desativado para esse ambiente. Para obter mais informações, consulte Não é possível ativar Otimizar para voz.
Desabilitar a otimização para voz
Desative Optimizar para voz na autoria de agente se você não usar o canal de telefonia. Depois de desativar o Optimize for voice, você verá as seguintes alterações:
- Nenhuma criação de agente para recursos de voz, como DTMF e interrupção.
- A modalidade padrão texto é definida.
- Nenhuma melhora no reconhecimento de fala, uma vez que não há reconhecimento de fala.
- Nenhum tópico do sistema de voz ou tópico de DTMF global.
Observação
Alguns tópicos podem relatar erros durante a publicação se ainda fizerem referência ao tópico DTMF (agora desativado).
- Nenhuma alteração na configuração do fluxo e do canal do agente, pois desativar a otimização não remove o Canal de telefonia.
- Habilitar ou desabilitar a opção Otimizar para voz só terá efeito depois que você publicar seu agente. Se você ativá-lo ou desativá-lo acidentalmente, e o agente alternar entre as modalidades, você terá tempo para corrigi-lo.
Importante
Se seus canais de Telefonia estiverem habilitados, desabilitar a opção Otimizar para voz poderá prejudicar seu agente, pois todos os gatilhos DTMF serão desativados automaticamente.
Usar a voz como seu modo de criação principal
Selecione a modalidade Speech &DTMF para cada nó na criação de recursos de voz. Selecione a preferência de criação do agente como usar a voz como modo de criação primário. Essa configuração garante que todos os campos de entrada tenham a modalidade certa. Se você já tiver habilitado Otimizar para voz, a opção Usar voz como modo de criação principal estará habilitada por padrão.
Disponibilidade de mensagem
Usar a modalidade de texto ou de fala pode afetar seu canal de forma diferente.
| Modalidade de texto | Modalidade de fala | Canal de texto & fala do agente |
|---|---|---|
| Mensagem disponível | Mensagem vazia | Mensagem disponível |
| Mensagem vazia | Mensagem disponível | Mensagem não disponível |
Reconhecimento de fala automático personalizado
Agentes habilitados para voz para um domínio específico, como médico ou financeiro, podem encontrar usuários que usam termos financeiros ou jargões médicos. Alguns termos e jargões são difíceis para o agente habilitado para voz converter de fala em texto.
Para garantir que a entrada de fala seja reconhecida com precisão, melhore o reconhecimento de fala:
Selecione Configurações>Voz em seu agente.
Selecione Aumentar a precisão com dados do agente para habilitar as configurações de reconhecimento de fala automático personalizadas do agente.
Selecione Salvar para confirmar suas alterações.
Publique seu agente para ver as novas alterações.
Referência de opções de voz no nível do agente
Use as configurações de voz para configurar os timeouts de vários recursos relacionados à voz. As configurações aplicadas nesta página tornam-se o padrão para tópicos criados em seu agente.
Para fazer alterações nas opções de tempo limite no nível do agente:
Vá até a página de Configurações do seu agente e selecione Voz.
Selecione as configurações desejadas e ajuste as configurações padrão do agente.
Selecione Salvar para confirmar suas alterações.
Configurações em nível de agente
A tabela a seguir lista cada opção e como ela se relaciona com as configurações de nível de nó.
| Seção de nível de agente habilitado para voz | Configuração | Description | Valor padrão | Substituir nível de nó |
|---|---|---|---|---|
| DTMF | Tempo de inatividade interdígitos | Tempo máximo em milissegundos permitido enquanto aguarda a próxima entrada de chave DTMF. Aplica a entrada DTMF de vários dígitos somente quando os usuários não atendem ao tamanho máximo da entrada. | 3000 milissegundos | Nó de pergunta com propriedades de voz para entrada DTMF de vários dígitos |
| DTMF | Tempo limite de terminação | Duração máxima em milissegundos para aguardar uma chave de terminação DTMF. O limite se aplica quando o usuário atinge o tamanho máximo de entrada e não pressiona a chave de término. Aplica-se somente à entrada DTMF de vários dígitos. Depois que o limite expira e a tecla DTMF de término não chegar, o agente encerrará o reconhecimento e retornará o resultado até aquele ponto. Se definido como "continuar sem esperar", o agente não aguarda a tecla de encerramento. O agente retorna imediatamente após o usuário inserir o tamanho máximo. |
2000 ms | Nó de pergunta com propriedades de voz para entrada DTMF de vários dígitos |
| Detecção de silêncio | Tempo limite de detecção de silêncio | Silêncio máximo em milissegundos permitido enquanto aguarda a entrada do usuário. O limite se aplica quando o agente não detecta nenhuma entrada do usuário. O padrão é "sem tempo limite de silêncio". O agente aguarda infinitamente pela entrada do usuário. Detecção de silêncio para voz vezes o período depois que a voz terminar de falar. |
Nenhum tempo limite de silêncio | Nó de pergunta com propriedades de voz para entrada DTMF de vários dígitos Tópico do sistema (propriedades do gatilho de detecção de silêncio) para Configurar a detecção de silêncio e tempos limite |
| Coleta de fala | Tempo limite final de enunciado | O limite se aplica quando o usuário pausa durante ou após a fala. Se a pausa for maior do que o limite de tempo, o agente presume que o usuário terminou de falar. O valor máximo para o tempo limite de término do enunciado é 3000 ms. Qualquer coisa acima de 3000 ms é ajustada para 3000 ms. |
1500 ms | Nó de pergunta com propriedades de voz |
| Coleta de fala | Tempo limite de reconhecimento de fala | Determina quanto tempo o Agente permite para a entrada do usuário quando ele começa a falar. O valor padrão é de 12.000 milissegundos (cerca de 12 segundos). Nenhum tempo limite de reconhecimento significa tempo infinito. O agente reformula a pergunta. Se não houver resposta, a voz estará além do Tempo limite de reconhecimento de fala. | 12.000 ms | Nó de pergunta com propriedades de voz |
| Mensagens de latência | Enviar atraso de mensagem | Determina quanto tempo o agente espera antes de entregar a mensagem de latência após o início de uma solicitação de operação em segundo plano. O tempo é definido em milissegundos. | 500 ms | Propriedades do nó de Ação para operação de execução prolongada |
| Mensagens de latência | Tempo mínimo de reprodução | A mensagem de latência será reproduzida por um período mínimo de tempo, mesmo se a operação em segundo plano for concluída enquanto a mensagem estiver sendo reproduzida. O tempo é definido em milissegundos. | 5000 ms | Propriedades do modo de Ação para operação de execução prolongada |
| Sensibilidade à fala | Confidencialidade | Controla como o sistema equilibra a detecção de fala e ruído de fundo. Diminua a sensibilidade para ambientes barulhentos, espaços públicos e operação mãos-livres. Aumente a sensibilidade para ambientes silenciosos, usuários de fala suave ou detecção de comandos de voz. A configuração padrão é 0,5. | 0,5 | There não há substituições de nível de nó para este controle. |
Habilitar a interrupção
Quando você habilita a entrada, os usuários do agente podem interromper seu agente. Esse recurso é útil quando o usuário do agente não precisa ouvir a mensagem inteira. Por exemplo, os chamadores podem já conhecer as opções do menu, porque as ouviram no passado. O usuário do agente pode inserir a opção desejada usando o barge-in, mesmo que o agente não tenha terminado de listar todas as opções.
Quando desabilitar a barcaça
- Desative a interrupção se você tiver atualizado recentemente uma mensagem do agente ou se a mensagem de conformidade não deva ser interrompida.
- Desative a interrupção para a primeira mensagem do agente para garantir que os usuários do agente estejam cientes de informações novas ou essenciais.
Especificações
O Barge-in oferece suporte a interrupções baseadas em DTMF e em voz do usuário agente.
Você pode controlar a entrada com cada mensagem em um lote. Posicione nós
barge-in-disabledem sequência antes de cada nó em que a interrupção seja permitida. Caso contrário, o sistema tratarábarge-in-disabledcomo uma mensagem de entrada de permissão.Quando uma fila de processamento em lote é concluída, a configuração automática de intervenção é redefinida para o próximo lote. O sinalizador de interrupção em cada mensagem subsequente regula isso. Você poderá posicionar nós de interrupção desabilitada quando a sequência for iniciada novamente.
Dica
Se nós consecutivos de mensagem forem seguidos por um nó Questão, as mensagens de voz para esses nós serão agrupadas em um lote. Um processo começa com um nó de mensagem e para no nó de pergunta, que aguarda a entrada do usuário.
Evite desabilitar a interação para mensagens longas, especialmente se você espera que os usuários do agente interajam com frequência com o agente. Se o seu usuário agente já conhece as opções de menu, permita que ele faça autoatendimento onde deseja ir.
Configurar a interrupção
Selecione um
nó de Mensagem ouPergunta e defina a modalidade desejada comoSpeech & DTMF .Selecione os três pontos (...) para o nó e selecione Propriedades.
Em nós de Mensagem, o painel Enviar propriedades da atividade será aberto na lateral da tela de criação.
Selecione Permitir interrupção.
Em nós de Pergunta, o painel Propriedades da pergunta será aberto. Selecione Voz.
Nas propriedades de Voz, selecione Permitir interrupção.
Salve o tópico.
Configurar a detecção de silêncio e tempos limite
A detecção de silêncio permite que você configure quanto tempo o agente aguarda a entrada do usuário e a ação que ele toma se o agente não receber nenhuma entrada. A detecção de silêncio é mais útil em resposta a uma pergunta no nível do nó ou quando o Agente aguarda uma frase de gatilho para iniciar um novo tópico.
Você pode configurar os tempos limite padrão para os tópicos.
Para substituir os padrões para um nó:
Selecione os três pontos (...) para o nó e selecione Propriedades.
O painel Propriedades da pergunta será aberto.
Selecione Voz e faça ajustes nas seguintes configurações:
Opção de tempo limite de detecção de silêncio Description Usar configuração do agente O nó usa a configuração global para a detecção de silêncio. Desabilitar para este nó O Agente aguarda indefinidamente por uma resposta. Personalizar em milissegundos O Agente aguarda um tempo especificado antes de repetir a pergunta.
Ação de fallback
Você pode configurar alguns comportamentos como uma ação de fallback:
- Quantas vezes o agente deve repetir uma pergunta
- O que a mensagem de nova solicitação deve dizer
- O que o agente deve fazer após um número especificado de repetições
Entrada de fala
Para entrada de fala, especifique valores para as seguintes configurações:
- Tempo limite de término do enunciado: quanto tempo o agente aguarda após o usuário terminar de falar.
- Tempo limite de reconhecimento de fala: quanto tempo o agente dá ao usuário quando ele começa a responder.
Para configurar o comportamento de detecção de silêncio quando o agente espera por uma frase de gatilho, ajuste as configurações no tópico do sistema Em silêncio.
Adicionar uma mensagem de latência para operações de execução prolongada
Para operações de back-end longas, seu agente pode enviar uma mensagem aos usuários para notificá-los sobre os processos mais longos. Os agentes em um canal de mensagens também podem enviar uma mensagem de latência.
| Reprodução de áudio de mensagem de latência | Mensagem de latência no chat |
|---|---|
| Continua a fazer loop até que a operação seja concluída. | Enviado somente uma vez quando a latência especificada é atingida. |
No Copilot Studio, seu agente pode repetir uma mensagem depois de disparar um fluxo de Power Automate:
Selecione os três pontos (...) do nó e, em seguida, selecione Propriedades. O painel Propriedades da ação será aberto.
Selecione Enviar uma mensagem.
Na seção Mensagem, insira o que você deseja que o agente diga. Use SSML para modificar o som da mensagem. O Agente repete a mensagem até que o fluxo seja concluído.
Você pode ajustar quanto tempo o agente deve esperar antes de repetir a mensagem na seção Atraso. Defina um período mínimo de tempo para aguardar, mesmo que o fluxo seja concluído.
Configurar o encerramento da chamada
Para configurar o agente para encerrar a chamada e finalizar a conversa, adicione um novo nó (+) e selecione Gerenciamento de tópicos>Encerrar conversa.
Detectar computadores de resposta
Você pode configurar seu agente para detectar um computador de resposta e deixar uma mensagem com o usuário do agente após a conclusão da mensagem do usuário do agente. O tópico do sistema de Detecção de Máquina de Resposta permite que você crie uma mensagem customizada para cenários quando o agente encontrar a caixa postal de um usuário. No nó Mensagem , defina a mensagem deixada quando o agente encontrar um computador de resposta.
Formatar síntese de fala com SSML
Use a SSML (linguagem de marcação de síntese de fala) para alterar a forma como o agente soa quando lê mensagens em voz alta. Por exemplo, você pode alterar o tom ou a frequência das palavras faladas, a velocidade e o volume.
SSML usa marcas para delimitar o texto que você deseja modificar, semelhante ao HTML. Use as seguintes tags no Copilot Studio:
| Marca SSML | Description | Link para a documentação do serviço de fala |
|---|---|---|
<audio src="_URL to an audio file_"/> |
Adicione a URL a um arquivo de áudio na marca. O arquivo deve ser acessível para o usuário do agente. | Adicionar áudio gravado |
<break /> |
Insira pausas ou intervalos entre as palavras. Insira opções de intervalo na marca. | Adicionar um intervalo |
<emphasis>
Texto que você deseja modificar</emphasis> |
Adicione níveis de estresse às palavras ou frases. Adicione opções de ênfase na marca de abertura. Adicione a marca de fechamento após o texto que você deseja modificar. | Ajustar opções de ênfase |
<prosody>
Texto que você deseja modificar</prosody> |
Especifique as alterações de tom, contorno, intervalo, taxa e volume. Adicione opções de prosódia na marca de abertura. Adicione a marca de fechamento após o texto que você deseja modificar. | Ajustar opções de prosódia |
<lang xml:lang="xx-XX">
Texto que você deseja modificar</lang> |
Ajuste o idioma falado dentro da mesma mensagem ao usar uma voz neural multilíngue. | Ajustar os idiomas falados |
Observação
Ao usar a tag <audio src="_URL to an audio file_"/>, se você armazenar a URL em uma variável, codifique a URL antes de inseri-la na tag SSML de src de áudio na mensagem. Use a função EncodeHTML Power Fx para codificar a URL ao atribuí-la a uma variável na ação de atribuição.
Encontrar e usar uma marca
SSML usa marcas para delimitar o texto que você deseja modificar, como o HTML.
Use as seguintes tags no Copilot Studio:
Selecione um nó de Mensagem ou Pergunta . Altere o modo para Fala &DTMF.
Selecione o menu Marcas SSML e selecione uma marca.
A caixa de mensagem será preenchida com a marca. Se já tiver texto na caixa de mensagem, o código da marca será acrescentado ao final da mensagem.
Envolva o texto que deseja modificar com as marcas de abertura e fechamento. Você pode combinar várias marcas e personalizar partes individuais da mensagem com marcas individuais.
Dica
Você também pode inserir manualmente as marcas SSML que não aparecem no menu auxiliar. Para saber mais sobre outras marcas disponíveis, consulte Aprimorar a síntese com Speech Synthesis Markup Language.
Transferir uma chamada para um representante ou número de telefone externo
Você pode fazer com que o agente transfira a chamada para um número de telefone externo. Copilot Studio dá suporte a transferência sem intervenção para um número de telefone PSTN e número de roteamento direto.
Observação
As transferências de chamada também podem ser tratadas usando cabeçalhos X SIP. Para mais informações, veja Configurar X-headers SIP para agentes habilitados por voz.
Para transferir para um número de telefone externo:
No tópico que você deseja modificar, adicione um novo nó (+). No menu do nó, selecione Gerenciamento de tópicos e selecione Transferir conversa.
Em Tipo de transferência, selecione Transferência para número de telefone externo e insira o número de telefone.
(Opcionalmente) adicione um cabeçalho SIP UUI ao telefonema.
Esse cabeçalho é uma cadeia de pares
key=value, sem espaços ou caracteres especiais, exibida para leitura por sistemas externos.Selecione os três pontos (...) do nó e, em seguida, selecione Propriedades. O painel propriedades de Transferir conversa será aberto.
Em cabeçalho SIP UUI, insira as informações que deseja enviar com a transferência de chamada. Não há suporte a variáveis durante a transferência para um número de telefone externo.
Cuidado
Apenas os primeiros 256 caracteres da string são enviados. O cabeçalho aceita somente números, letras, sinais de igualdade (
=) e ponto e vírgula (;). Não há suporte a todos os outros caracteres, incluindo espaços, chaves e colchetes, ou fórmulas, e podem causar uma falha na transferência.
Dica
Inclua um + no número de telefone para o código do país correspondente.
A saída de transferência com SIP UUI para o número de telefone de destino deve usar roteamento direto. Os números de Telefone da PSTN (Rede telefônica pública comutada) não oferecem suporte a transferências de cabeçalho SIP UUI.
Para transferir para um representante, consulte Gatilhos explícitos.
Usar variáveis de voz
Copilot Studio dá suporte à população de variáveis. Você pode usar variáveis predefinidas ou criar as personalizadas.
Observação
- Para obter mais informações sobre como usar e criar variáveis no Copilot Studio, consulte Trabalho com variáveis.
- Para obter informações sobre outras atividades adicionais e variáveis de conversa disponíveis para agentes habilitados para voz, consulte Variáveis para agentes habilitados para voz.
Um agente habilitado para voz no Copilot Studio dá suporte a variáveis de contexto. Essas variáveis ajudam você a integrar suas conversas de agente com Dynamics 365 Contact Center ao transferir uma chamada.
Para obter mais informações sobre variáveis de contexto no Dynamics 365 Contact Center, consulte Context variáveis para bots do Copilot Studio.
Esta integração oferece suporte a estes cenários com as seguintes variáveis quando você transfere:
| Variável | Tipo | Description |
|---|---|---|
System.Activity.From.Name |
String | O ID do chamador do usuário do agente |
System.Activity.Recipient.Name |
String | O número usado para ligar ou conectar-se ao agente |
System.Conversation.SipUuiHeaderValue |
String | Valor do cabeçalho SIP ao transferir por meio de um número de telefone de roteamento direto |
System.Activity.UserInputType |
String | Se o usuário do agente usou DTMF ou fala na conversa |
System.Activity.InputDTMFKey |
String | A entrada DTMF bruta do usuário do agente |
System.Conversation.OnlyAllowDTMF |
booleano | O Serviço de Voz ignora a entrada de fala quando definida como verdadeiro |
System.Activity.SpeechRecognition.Confidence |
Número | O valor de confiança (entre 0 e 1) do último evento de reconhecimento de fala |
System.Activity.SpeechRecognition.MinimalFormattedText |
String | Resultados de reconhecimento de fala (como texto bruto) antes de o Copilot Studio aplicar seu modelo dedicado de reconhecimento vocal natural |
Observação
- Um agente com frases de gatilho grandes e dimensionamento de entidade leva mais tempo para ser publicado.
- Se vários usuários publicarem o mesmo agente ao mesmo tempo, sua ação de publicação será bloqueada. Você precisará republicar o agente depois que os outros terminarem suas edições existentes do agente.
Para saber mais sobre os fundamentos da publicação, consulte Principais conceitos - Publicar e implantar seu agente.