¿Qué es Azure Speech?

Azure Speech in Foundry Tools proporciona voz a texto, texto a voz y otras funcionalidades a través de un recurso de Microsoft Foundry. Puede transcribir la voz al texto con alta precisión, producir voces de texto a voz de sonido natural, traducir audio hablado y realizar conversaciones de voz de IA en directo.

Captura de pantalla de iconos que resaltan algunas características de Voz de Azure.

Puede crear voces personalizadas, agregar palabras específicas al vocabulario base o crear sus propios modelos. Ejecuta Azure Speech en cualquier lugar, en la nube o en el entorno local utilizando contenedores. Habilite las aplicaciones, las herramientas y los dispositivos para voz mediante la CLI de Voz, el SDK de Voz y las API REST.

Azure Speech está disponible para muchos idiomas, regiones y puntos de precio.

Escenarios

Entre los escenarios comunes de voz se incluyen:

Subtítulos: Obtenga información sobre la sincronización de los subtítulos con el audio de entrada, la aplicación de filtros de palabras soeces, la obtención de resultados parciales, la aplicación de personalizaciones y la identificación de los idiomas hablados en escenarios multilingües.
Creación de contenido de audio: use voces neuronales para hacer que las interacciones con bots de chat y agentes de voz sean más naturales y atractivas, convierta textos digitales como libros electrónicos en audiobooks y mejore los sistemas de navegación en coche.
Centro de llamadas: Transcribe llamadas en tiempo real o procesa un lote de llamadas, redacta información personal y extrae insights como análisis de sentimiento para ayudar con su caso de uso del centro de llamadas.
Aprendizaje de idiomas: Proporcione comentarios de evaluación de la pronunciación a los aprendices de idiomas, admita la transcripción en tiempo real para conversaciones de aprendizaje remoto y lea materiales de enseñanza en voz alta con voces neuronales.
Voice Live: cree interfaces conversacionales naturales y humanas para aplicaciones y experiencias. La característica Voice Live proporciona una interacción rápida y confiable entre un usuario y una implementación de agente.
Traducción de voz: genere traducción de voz a voz de alta calidad en tiempo real o genere automáticamente vídeos traducidos en una amplia gama de idiomas.
Creación de avatares de vídeo: cree vídeos de avatares sintéticos de alta calidad y realistas para varias aplicaciones en tiempo real y por lotes, de acuerdo con los procedimientos recomendados de IA.

Microsoft usa Voz de Azure para muchos escenarios, como subtítulos en Microsoft Teams, dictado en Microsoft Office 365 y Lectura en voz alta en el explorador Microsoft Edge.

Captura de pantalla que muestra logotipos de productos de Microsoft que usan Azure Speech.

Capabilities

En las secciones siguientes se resumen las características de Voz de Azure y se proporcionan vínculos para obtener más información.

Conversión de voz en texto

Use voz en texto para convertir audio en texto. Elija entre las siguientes opciones:

Transcripción en tiempo real para streaming de audio.
Transcripción rápida para archivos de audio grabados previamente.
Transcripción por lotes para procesar grandes volúmenes de audio de forma asincrónica.

Es posible que el modelo base no sea suficiente si el audio contiene ruido ambiental o incluye jerga específica del sector y del dominio. En estos casos, puede crear y entrenar modelos de voz personalizados con datos acústicos, de lenguaje y pronunciación. Los modelos de voz personalizados son privados y pueden ofrecer una ventaja competitiva.

Texto a voz

Con texto a voz, puede convertir texto de entrada en voz sintetizada similar a la humana. Use voces neuronales, que son voces similares a las humanas con tecnología de redes neuronales profundas. Use el lenguaje de marcado de síntesis de voz (SSML) para ajustar el tono, la pronunciación, la velocidad de habla, el volumen, etc.

Entre las opciones de voz se incluyen:

Voz estándar: puede elegir entre voces predeterminadas muy naturales. Compruebe los ejemplos de voz estándar en la Galería de voz y determine la voz adecuada para sus necesidades empresariales.
Voz personalizada: puede crear una voz personalizada que sea reconocible y única para su marca o producto. Las voces personalizadas son privadas y pueden ofrecer una ventaja competitiva. Compruebe los ejemplos de voz personalizados.

Avatar de texto a voz

El avatar de texto a voz convierte el texto en un vídeo digital de un humano fotorealista hablando con una voz de sonido natural. El vídeo se puede sintetizar de forma asincrónica o en tiempo real. Puede crear aplicaciones integradas con el avatar de texto a voz a través de una API o usar el avatar de texto a voz en Foundry para crear contenido de vídeo sin codificar. La característica le permite crear vídeos de avatares hablantes sintéticos de alta calidad y realistas para diversas aplicaciones, mientras se adhiere a prácticas de inteligencia artificial responsables.

Puede elegir entre una variedad de voces estándar para el avatar. La compatibilidad de idiomas del avatar de texto a voz es la misma que la compatibilidad de idiomas de la conversión de texto en voz.

Traducción de voz

Traducción de voz permite la traducción multilingüe y en tiempo real de voz a sus aplicaciones, herramientas y dispositivos. Use esta característica para la traducción de voz a voz y conversión de voz a texto.

Voz LLM (versión preliminar)

Aproveche el modelo de voz mejorado por un modelo de lenguaje grande (LLM) en Voz de LLM. Esta característica admite actualmente las siguientes tareas:

transcribe: convierta audio previamente grabado en texto.
translate: convierta audio previamente grabado en texto en un idioma de destino especificado.

El modelo de voz mejorado para LLM ofrece una calidad mejorada, comprensión contextual profunda, compatibilidad multilingüe y funcionalidades de optimización rápida. Voz de LLM comparte el mismo rendimiento de inferencia ultrarrápido que la transcripción rápida. Entre los casos de uso se incluyen la generación de subtítulos y leyendas a partir de archivos de audio, resumir las notas de reuniones, asistir a los agentes del centro de llamadas, la transcripción de los correos de voz, y más.

Identificación del idioma

La identificación del idioma le ayuda a identificar los idiomas hablados en audio comparándolos con una lista de idiomas admitidos. Use la identificación de idioma por sí misma, con reconocimiento de voz a texto o con traducción de voz.

Evaluación de pronunciación

La evaluación de la pronunciación evalúa la pronunciación de la voz y ofrece a los oradores comentarios sobre la precisión y la fluidez del audio hablado. Mediante la evaluación de pronunciación, los alumnos de idiomas pueden practicar, obtener comentarios instantáneos y mejorar su pronunciación para que puedan hablar y presentarse con confianza.

Entrega y presencia

Puede implementar características de Voz de Azure en la nube o en el entorno local.

Con los contenedores, puede acercar el servicio a los datos por motivos de cumplimiento, seguridad u otras razones operativas.

La implementación de Voz de Azure en nubes soberanas está disponible para algunas entidades gubernamentales y sus asociados. Por ejemplo, la nube de Azure Government está disponible para las entidades de la Administración Pública de Estados Unidos y sus asociados. La nube de Azure operada por 21Vianet está disponible para las organizaciones que tienen presencia empresarial en China. Para más información, consulte Servicio de voz en nubes soberanas.

Diagrama que muestra dónde se puede implementar y acceder a Voz de Azure.

Integración de Voz de Azure en la aplicación

Speech Studio es un conjunto de herramientas basadas en la interfaz de usuario para compilar e integrar características de Voz de Azure en las aplicaciones. Los proyectos se crean en Speech Studio mediante un enfoque sin código. A continuación, puede hacer referencia a esos recursos en las aplicaciones mediante:

SDK de Voz. Este SDK expone muchas de las funcionalidades de Voz de Azure que puede usar para desarrollar aplicaciones habilitadas para voz. El SDK de voz está disponible en muchos lenguajes de programación y en todas las plataformas.
Interfaz de Línea de Comandos para Voz. Con esta herramienta de línea de comandos, puede usar Azure Speech sin tener que escribir ningún código. La mayoría de las características principales del SDK de voz están disponibles en la CLI de voz, y algunas características y personalizaciones avanzadas se han simplificado en esta última.
API REST. En algunos casos, no se puede o no debe usar el SDK de Voz. En esos casos, puede usar las API REST para acceder a Azure Speech. Por ejemplo, use las API REST para la transcripción por lotes.

Ejemplos de código

El código de ejemplo de Voz de Azure está disponible en GitHub. En estos ejemplos se tratan escenarios comunes como la lectura de audio de un archivo o flujo, el reconocimiento continuo y de una sola emisión, y el trabajo con modelos personalizados. Use estos vínculos para ver ejemplos de SDK y REST:

Inteligencia artificial responsable

Un sistema de inteligencia artificial incluye no solo la tecnología, sino también las personas que la usan, las personas afectadas por ella y el entorno donde se implementa. Use los siguientes recursos para obtener información sobre el uso y la implementación de inteligencia artificial responsable en los sistemas.

Conversión de voz en texto

Evaluación de pronunciación

Voz personalizada

Las siguientes guías de inicio rápido están disponibles para las características de Voz de Azure. Cada inicio rápido le enseña patrones de diseño básicos en muchos lenguajes de programación populares y le lleva a ejecutar código en menos de 10 minutos.

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-02-02

Compartir a través de

¿Qué es Azure Speech?

Escenarios

Capabilities

Conversión de voz en texto

Texto a voz

Avatar de texto a voz

Traducción de voz

Voz LLM (versión preliminar)

Identificación del idioma

Evaluación de pronunciación

Entrega y presencia

Integración de Voz de Azure en la aplicación

Ejemplos de código

Inteligencia artificial responsable

Conversión de voz en texto

Evaluación de pronunciación

Voz personalizada

Contenido relacionado

Comentarios

Recursos adicionales