Inicio rápido de Conversión de voz en texto - Foundry Tools

En este inicio rápido, probará la conversión de voz en tiempo real en texto en Microsoft Foundry.

Requisitos previos

Una suscripción Azure. Crear uno gratis.
Un proyecto de fundición. Si necesita crear un proyecto, consulte Creación de un proyecto de Microsoft Foundry.

Pruebe la conversión de voz en tiempo real en texto

Portal Foundry (nuevo)
Portal de Foundry (clásico)

Inicie sesión en Microsoft Foundry. Asegúrese de que el interruptor New Foundry está activado. Estos pasos hacen referencia a Foundry (nuevo).
Seleccione Compilar en el menú superior derecho.
Seleccione Modelos en el panel izquierdo.
En la pestaña Servicios de IA se muestran los modelos foundry que se pueden usar de forma predeterminada en el portal de Foundry. Seleccione Azure Speech - Speech to text para abrir el área de juegos De voz a texto.
Opcionalmente, use la sección Parámetros para cambiar la tarea, el idioma, la directiva de palabras soeces y otras configuraciones. También puede agregar instrucciones especiales para LLM.
Use la sección Cargar archivos para seleccionar el archivo de audio. A continuación, seleccione Iniciar.
Vea la salida de transcripción en la pestaña Transcripción . Opcionalmente, vea la salida de respuesta de API sin procesar en la pestaña JSON .
Cambie a la pestaña Código para obtener el código de ejemplo para usar la característica de voz en texto en la aplicación.

Otras características de Foundry (nuevas)

Las siguientes características de voz están disponibles en el portal foundry (nuevo):

Inicie sesión en Microsoft Foundry. Asegúrese de que el conmutador New Foundry está desactivado. Estos pasos hacen referencia a Foundry (clásico).
Seleccione Áreas de juegos en el panel izquierdo y, a continuación, seleccione un área de juegos para usarla. En este ejemplo, seleccione Probar el área de juegos de Voz.
Seleccione Transcripción en tiempo real.
Seleccione Mostrar opciones avanzadas para configurar opciones de voz en texto, como:
- Identificación de idiomas: se utiliza para identificar los idiomas hablados en el audio al compararlos con una lista de idiomas admitidos. Para obtener más información sobre las opciones de identificación de idiomas, como el reconocimiento al inicio y continuo, consulte Identificación de idiomas.
- Diarización de orador: se utiliza para identificar y separar los oradores en audio. La diarización distingue entre los diferentes oradores que participan en la conversación. El servicio de voz proporciona información sobre qué orador habló una parte específica del discurso transcrito. Para más información sobre la diarización del orador, vea el inicio rápido Conversión de voz a texto en tiempo real con diarización del orador.
- Punto de conexión personalizado: use un modelo implementado a partir de voz personalizada para mejorar la precisión del reconocimiento. Para usar el modelo de línea de base de Microsoft, deje este valor en Ninguno. Para obtener más información sobre la voz personalizada, consulte Habla personalizada.
- Formato de salida: elija entre formatos de salida simples y detallados. La salida simple incluye formato de presentación y marcas de tiempo. La salida detallada incluye más formatos (como mostrar, léxico, ITN e ITN enmascarado), marcas de tiempo y listas de N mejores.
- Lsta de frases: mejore la precisión de la transcripción proporcionando una lista de frases conocidas, como nombres de personas o ubicaciones específicas. Use comas o punto y coma para separar cada valor de la lista de frases. Para obtener más información sobre las listas de frases, consulte la Listas de frases.
Seleccione un archivo de audio para cargar o grabar audio en tiempo real. En este ejemplo, usamos el archivo /> Speech en GitHub. Puede descargar el archivo o usar su propio archivo de audio.
Puede ver la transcripción en tiempo real en la parte inferior de la página.
Puede seleccionar la pestaña JSON para ver la salida JSON de la transcripción. Estas propiedades incluyen Offset, Duration, RecognitionStatus, Display, Lexical, ITN, etc.

Reference documentation | Package (NuGet) | Additional samples on GitHub

En este inicio rápido, creará y ejecutará una aplicación para reconocer y realizar la conversión de voz en texto en tiempo real.

Sugerencia

Para una transcripción rápida de archivos de audio, considere la posibilidad de usar la API de transcripción rápida. La API de transcripción rápida admite características como la identificación y la diarización del idioma.

En cambio, para transcribir archivos de audio de forma asincrónica, consulte Qué es la transcripción por lotes. Si no está seguro de qué solución de conversión de voz en texto es adecuada para usted, consulte¿Qué es la conversión de voz en texto?

Requisitos previos

Una suscripción Azure. Puede crear una de forma gratuita.
Crear un recurso de AI Services para Speech en el portal de Azure.
Obtenga la clave y el punto de conexión del recurso de Voz. Una vez implementado el recurso de Voz, seleccione Ir al recurso para ver y administrar claves.

Configuración del entorno

El SDK de Voz está disponible como un paquete NuGet e implementa .NET Standard 2.0. Instalará el SDK de Voz más adelante en esta guía. Para conocer los demás requisitos, consulte Instalación del SDK de Voz.

Establecimiento de variables de entorno

Debe autenticar su aplicación para acceder a Herramientas de Foundry. En este artículo se muestra cómo usar variables de entorno para almacenar las credenciales. A continuación, puede acceder a las variables de entorno desde el código para autenticar la aplicación. Para producción, use una manera más segura de almacenar y acceder a sus credenciales.

Importante

Se recomienda Microsoft Entra ID autenticación con identidades administradas para recursos Azure para evitar almacenar credenciales con las aplicaciones que se ejecutan en la nube.

Use las claves de API con precaución. No incluya la clave de API directamente en el código ni la exponga nunca públicamente. Si usa claves de API, almacénelas de forma segura en Azure Key Vault, gire las claves periódicamente y restrinja el acceso a Azure Key Vault mediante el control de acceso basado en rol y las restricciones de acceso de red. Para obtener más información sobre el uso de claves de API de forma segura en las aplicaciones, consulte CLAVESAPI con Azure Key Vault.

Para obtener más información sobre la seguridad de los servicios de inteligencia artificial, consulte Authenticate requests to Azure AI services (Solicitudes de autenticación a Azure AI services.

Para establecer las variables de entorno para la clave de recurso de Voz y el punto de conexión, abra una ventana de consola y siga las instrucciones del sistema operativo y el entorno de desarrollo.

Para establecer la variable de entorno de SPEECH_KEY, reemplace su clave por una de las claves del recurso.
Para establecer la ENDPOINT variable de entorno, reemplace tu-punto-de-conexión por uno de los puntos de conexión para su recurso.

setx SPEECH_KEY your-key
setx ENDPOINT your-endpoint

Nota:

Si solo necesita acceder a las variables de entorno en la consola actual, puede establecer la variable de entorno con set en vez de setx.

Después de agregar las variables de entorno, puede que tenga que reiniciar cualquier programa que necesite leer las variables de entorno, incluida la ventana de consola. Por ejemplo, si usa Visual Studio como editor, reinicie Visual Studio antes de ejecutar el ejemplo.

Bash

Edite el archivo .bashrc y agregue las variables de entorno:

export SPEECH_KEY=your-key
export ENDPOINT=your-endpoint

Después de agregar las variables de entorno ejecute source ~/.bashrc en la ventana de consola para que los cambios surtan efecto.

Bash

Edite su archivo .bash_profile y agregue las variables de entorno:

export SPEECH_KEY=your-key
export ENDPOINT=your-endpoint

Después de agregar las variables de entorno ejecute source ~/.bash_profile en la ventana de consola para que los cambios surtan efecto.

Xcode

Para el desarrollo de iOS y macOS, establezca las variables de entorno en Xcode. Por ejemplo, siga estos pasos para establecer la variable de entorno en Xcode 13.4.1.

Seleccione Producto>Esquema>Editar esquema.
Seleccione Argumentos en la página Ejecutar (Depurar ejecución)
En Variables de entorno, seleccione el signo más (+) para agregar una nueva variable de entorno.
Escriba SPEECH_KEY en Nombre y la clave de recurso de Voz en Valor.

Para establecer la variable de entorno para el punto de conexión del recurso de Voz, siga los mismos pasos. Establezca ENDPOINT en el punto de conexión del recurso. Por ejemplo: https://YourServiceRegion.api.cognitive.microsoft.com.

Para obtener más opciones de configuración, consulte la documentación de Xcode.

Reconocimiento de voz a través de un micrófono

Sugerencia

Pruebe el Azure Speech in Foundry Tools Toolkit para compilar y ejecutar fácilmente ejemplos en Visual Studio Code.

Siga estos pasos para crear una aplicación de consola e instalar el SDK de Voz.

Abra una ventana de la línea de comandos en la carpeta donde desea crear el nuevo proyecto. Ejecute este comando para crear una aplicación de consola con la CLI de .NET.
```
dotnet new console
```
Este comando crea el archivo Program.cs en el directorio del proyecto.
Instale el SDK de Voz en el nuevo proyecto con la CLI de .NET.
```
dotnet add package Microsoft.CognitiveServices.Speech
```

Reemplace el contenido de Program.cs por el código siguiente:

using System;
using System.IO;
using System.Threading.Tasks;
using Microsoft.CognitiveServices.Speech;
using Microsoft.CognitiveServices.Speech.Audio;

class Program 
{
    // This example requires environment variables named "SPEECH_KEY" and "ENDPOINT"
    static string speechKey = Environment.GetEnvironmentVariable("SPEECH_KEY");
    static string endpoint = Environment.GetEnvironmentVariable("ENDPOINT");

    static void OutputSpeechRecognitionResult(SpeechRecognitionResult speechRecognitionResult)
    {
        switch (speechRecognitionResult.Reason)
        {
            case ResultReason.RecognizedSpeech:
                Console.WriteLine($"RECOGNIZED: Text={speechRecognitionResult.Text}");
                break;
            case ResultReason.NoMatch:
                Console.WriteLine($"NOMATCH: Speech could not be recognized.");
                break;
            case ResultReason.Canceled:
                var cancellation = CancellationDetails.FromResult(speechRecognitionResult);
                Console.WriteLine($"CANCELED: Reason={cancellation.Reason}");

                if (cancellation.Reason == CancellationReason.Error)
                {
                    Console.WriteLine($"CANCELED: ErrorCode={cancellation.ErrorCode}");
                    Console.WriteLine($"CANCELED: ErrorDetails={cancellation.ErrorDetails}");
                    Console.WriteLine($"CANCELED: Did you set the speech resource key and endpoint values?");
                }
                break;
        }
    }

    async static Task Main(string[] args)
    {
        var speechConfig = SpeechConfig.FromEndpoint(new Uri(endpoint), speechKey);
        speechConfig.SpeechRecognitionLanguage = "en-US";

        using var audioConfig = AudioConfig.FromDefaultMicrophoneInput();
        using var speechRecognizer = new SpeechRecognizer(speechConfig, audioConfig);

        Console.WriteLine("Speak into your microphone.");
        var speechRecognitionResult = await speechRecognizer.RecognizeOnceAsync();
        OutputSpeechRecognitionResult(speechRecognitionResult);
    }
}

Para cambiar el idioma de reconocimiento de voz, reemplace en-US por otro idioma compatible. Por ejemplo, use es-ES para Español (España). Si no especifica un idioma, el valor predeterminado es en-US. Para más información sobre cómo identificar uno de los distintos idiomas que se pueden hablar, consulte Identificación del idioma.
Ejecute la nueva aplicación de consola para iniciar el reconocimiento de voz a través de un micrófono:
```
dotnet run
```
Importante

Asegúrese de establecer las variables de entorno SPEECH_KEY y ENDPOINT. Si no establece estas variables, se produce un fallo en el ejemplo, con un mensaje de error.
Hable por el micrófono cuando se le solicite. Lo que diga debería aparecer como texto:
```
Speak into your microphone.
RECOGNIZED: Text=I'm excited to try speech to text.
```

Comentarios

Estas son algunas otras consideraciones:

En este ejemplo se usa la operación RecognizeOnceAsync para transcribir expresiones de hasta 30 segundos, o hasta que se detecta el silencio. Para obtener información sobre el reconocimiento continuo de audio más largo, incluidas las conversaciones en varios idiomas, consulte Reconocimiento de voz.
Para reconocer la voz de un archivo de audio, use FromWavFileInput en lugar de FromDefaultMicrophoneInput:
```
using var audioConfig = AudioConfig.FromWavFileInput("YourAudioFile.wav");
```
Para archivos de audio comprimidos como MP4, instale GStreamer y utilice PullAudioInputStream o PushAudioInputStream. Para más información, consulte Uso de entradas de audio comprimido.

Limpieza de recursos

Puede usar el portal Azure o Azure interfaz de línea de comandos (CLI) para quitar el recurso de voz que creó.

Reference documentation | Package (NuGet) | Additional samples on GitHub

En este inicio rápido, creará y ejecutará una aplicación para reconocer y realizar la conversión de voz en texto en tiempo real.

Sugerencia

Para una transcripción rápida de archivos de audio, considere la posibilidad de usar la API de transcripción rápida. La API de transcripción rápida admite características como la identificación y la diarización del idioma.

En cambio, para transcribir archivos de audio de forma asincrónica, consulte Qué es la transcripción por lotes. Si no está seguro de qué solución de conversión de voz en texto es adecuada para usted, consulte¿Qué es la conversión de voz en texto?

Requisitos previos

Una suscripción Azure. Puede crear una de forma gratuita.
Crear un recurso de AI Services para Speech en el portal de Azure.
Obtenga la clave y el punto de conexión del recurso de Voz. Una vez implementado el recurso de Voz, seleccione Ir al recurso para ver y administrar claves.

Configuración del entorno

El SDK de Voz está disponible como un paquete NuGet e implementa .NET Standard 2.0. Instalará el SDK de Voz más adelante en esta guía. Para conocer los demás requisitos, consulte Instalación del SDK de Voz.

Establecimiento de variables de entorno

Debe autenticar su aplicación para acceder a Herramientas de Foundry. En este artículo se muestra cómo usar variables de entorno para almacenar las credenciales. A continuación, puede acceder a las variables de entorno desde el código para autenticar la aplicación. Para producción, use una manera más segura de almacenar y acceder a sus credenciales.

Importante

Se recomienda Microsoft Entra ID autenticación con identidades administradas para recursos Azure para evitar almacenar credenciales con las aplicaciones que se ejecutan en la nube.

Use las claves de API con precaución. No incluya la clave de API directamente en el código ni la exponga nunca públicamente. Si usa claves de API, almacénelas de forma segura en Azure Key Vault, gire las claves periódicamente y restrinja el acceso a Azure Key Vault mediante el control de acceso basado en rol y las restricciones de acceso de red. Para obtener más información sobre el uso de claves de API de forma segura en las aplicaciones, consulte CLAVESAPI con Azure Key Vault.

Para obtener más información sobre la seguridad de los servicios de inteligencia artificial, consulte Authenticate requests to Azure AI services (Solicitudes de autenticación a Azure AI services.

Para establecer las variables de entorno para la clave de recurso de Voz y el punto de conexión, abra una ventana de consola y siga las instrucciones del sistema operativo y el entorno de desarrollo.

Para establecer la variable de entorno de SPEECH_KEY, reemplace su clave por una de las claves del recurso.
Para establecer la ENDPOINT variable de entorno, reemplace tu-punto-de-conexión por uno de los puntos de conexión para su recurso.

setx SPEECH_KEY your-key
setx ENDPOINT your-endpoint

Nota:

Si solo necesita acceder a las variables de entorno en la consola actual, puede establecer la variable de entorno con set en vez de setx.

Después de agregar las variables de entorno, puede que tenga que reiniciar cualquier programa que necesite leer las variables de entorno, incluida la ventana de consola. Por ejemplo, si usa Visual Studio como editor, reinicie Visual Studio antes de ejecutar el ejemplo.

Bash

Edite el archivo .bashrc y agregue las variables de entorno:

export SPEECH_KEY=your-key
export ENDPOINT=your-endpoint

Después de agregar las variables de entorno ejecute source ~/.bashrc en la ventana de consola para que los cambios surtan efecto.

Bash

Edite su archivo .bash_profile y agregue las variables de entorno:

export SPEECH_KEY=your-key
export ENDPOINT=your-endpoint

Después de agregar las variables de entorno ejecute source ~/.bash_profile en la ventana de consola para que los cambios surtan efecto.

Xcode

Para el desarrollo de iOS y macOS, establezca las variables de entorno en Xcode. Por ejemplo, siga estos pasos para establecer la variable de entorno en Xcode 13.4.1.

Seleccione Producto>Esquema>Editar esquema.
Seleccione Argumentos en la página Ejecutar (Depurar ejecución)
En Variables de entorno, seleccione el signo más (+) para agregar una nueva variable de entorno.
Escriba SPEECH_KEY en Nombre y la clave de recurso de Voz en Valor.

Para establecer la variable de entorno para el punto de conexión del recurso de Voz, siga los mismos pasos. Establezca ENDPOINT en el punto de conexión del recurso. Por ejemplo: https://YourServiceRegion.api.cognitive.microsoft.com.

Para obtener más opciones de configuración, consulte la documentación de Xcode.

Reconocimiento de voz a través de un micrófono

Sugerencia

Pruebe el Azure Speech in Foundry Tools Toolkit para compilar y ejecutar fácilmente ejemplos en Visual Studio Code.

Siga estos pasos para crear una aplicación de consola e instalar el SDK de Voz.

Cree un nuevo proyecto de consola de C++ en Visual Studio Community denominado SpeechRecognition.
Seleccione Tools>Nuget Package Manager>Package Manager Console. En el Package Manager Console, ejecute este comando:
```
Install-Package Microsoft.CognitiveServices.Speech
```

Reemplace el contenido de SpeechRecognition.cpp por el código siguiente:

#include <iostream> 
#include <stdlib.h>
#include <speechapi_cxx.h>

using namespace Microsoft::CognitiveServices::Speech;
using namespace Microsoft::CognitiveServices::Speech::Audio;

std::string GetEnvironmentVariable(const char* name);

int main()
{
    // This example requires environment variables named "SPEECH_KEY" and "ENDPOINT"
    auto speechKey = GetEnvironmentVariable("SPEECH_KEY");
    auto endpoint = GetEnvironmentVariable("ENDPOINT");

    if (std::string(speechKey).empty() || std::string(endpoint).empty()) {
        std::cout << "Please set both SPEECH_KEY and ENDPOINT environment variables." << std::endl;
        return -1;
    }

    auto speechConfig = SpeechConfig::FromEndpoint(endpoint, speechKey);

    speechConfig->SetSpeechRecognitionLanguage("en-US");

    auto audioConfig = AudioConfig::FromDefaultMicrophoneInput();
    auto speechRecognizer = SpeechRecognizer::FromConfig(speechConfig, audioConfig);

    std::cout << "Speak into your microphone.\n";
    auto result = speechRecognizer->RecognizeOnceAsync().get();

    if (result->Reason == ResultReason::RecognizedSpeech)
    {
        std::cout << "RECOGNIZED: Text=" << result->Text << std::endl;
    }
    else if (result->Reason == ResultReason::NoMatch)
    {
        std::cout << "NOMATCH: Speech could not be recognized." << std::endl;
    }
    else if (result->Reason == ResultReason::Canceled)
    {
        auto cancellation = CancellationDetails::FromResult(result);
        std::cout << "CANCELED: Reason=" << (int)cancellation->Reason << std::endl;

        if (cancellation->Reason == CancellationReason::Error)
        {
            std::cout << "CANCELED: ErrorCode=" << (int)cancellation->ErrorCode << std::endl;
            std::cout << "CANCELED: ErrorDetails=" << cancellation->ErrorDetails << std::endl;
            std::cout << "CANCELED: Did you set the speech resource key and endpoint values?" << std::endl;
        }
    }
}

std::string GetEnvironmentVariable(const char* name)
{
#if defined(_MSC_VER)
    size_t requiredSize = 0;
    (void)getenv_s(&requiredSize, nullptr, 0, name);
    if (requiredSize == 0)
    {
        return "";
    }
    auto buffer = std::make_unique<char[]>(requiredSize);
    (void)getenv_s(&requiredSize, buffer.get(), requiredSize, name);
    return buffer.get();
#else
    auto value = getenv(name);
    return value ? value : "";
#endif
}

Para cambiar el idioma de reconocimiento de voz, reemplace en-US por otro idioma compatible. Por ejemplo, use es-ES para Español (España). Si no especifica un idioma, el valor predeterminado es en-US. Para más información sobre cómo identificar uno de los distintos idiomas que se pueden hablar, consulte Identificación del idioma.
Para iniciar el reconocimiento de voz desde un micrófono, compile y ejecute la nueva aplicación de consola.

Importante

Asegúrese de establecer las variables de entorno SPEECH_KEY y ENDPOINT. Si no establece estas variables, se produce un fallo en el ejemplo, con un mensaje de error.
Hable por el micrófono cuando se le solicite. Lo que diga debería aparecer como texto:
```
Speak into your microphone.
RECOGNIZED: Text=I'm excited to try speech to text.
```

Comentarios

Estas son algunas otras consideraciones:

En este ejemplo se usa la operación RecognizeOnceAsync para transcribir expresiones de hasta 30 segundos, o hasta que se detecta el silencio. Para obtener información sobre el reconocimiento continuo de audio más largo, incluidas las conversaciones en varios idiomas, consulte Reconocimiento de voz.
Para reconocer la voz de un archivo de audio, use FromWavFileInput en lugar de FromDefaultMicrophoneInput:
```
auto audioConfig = AudioConfig::FromWavFileInput("YourAudioFile.wav");
```
Para archivos de audio comprimidos como MP4, instale GStreamer y utilice PullAudioInputStream o PushAudioInputStream. Para más información, consulte Uso de entradas de audio comprimido.

Limpieza de recursos

Puede usar el portal Azure o Azure interfaz de línea de comandos (CLI) para quitar el recurso de voz que creó.

Reference documentation | Package (Go) | Additional samples on GitHub

En este inicio rápido, creará y ejecutará una aplicación para reconocer y realizar la conversión de voz en texto en tiempo real.

Sugerencia

Para una transcripción rápida de archivos de audio, considere la posibilidad de usar la API de transcripción rápida. La API de transcripción rápida admite características como la identificación y la diarización del idioma.

En cambio, para transcribir archivos de audio de forma asincrónica, consulte Qué es la transcripción por lotes. Si no está seguro de qué solución de conversión de voz en texto es adecuada para usted, consulte¿Qué es la conversión de voz en texto?

Requisitos previos

Una suscripción Azure. Puede crear una de forma gratuita.
Crear un recurso de AI Services para Speech en el portal de Azure.
Obtenga la clave y el punto de conexión del recurso de Voz. Una vez implementado el recurso de Voz, seleccione Ir al recurso para ver y administrar claves.

Configuración del entorno

El SDK de Voz está disponible como un paquete de Go. Instalará el SDK de Voz más adelante en esta guía. Para conocer los demás requisitos, consulte Instalación del SDK de Voz.

Establecimiento de variables de entorno

Debe autenticar su aplicación para acceder a Herramientas de Foundry. En este artículo se muestra cómo usar variables de entorno para almacenar las credenciales. A continuación, puede acceder a las variables de entorno desde el código para autenticar la aplicación. Para producción, use una manera más segura de almacenar y acceder a sus credenciales.

Importante

Se recomienda Microsoft Entra ID autenticación con identidades administradas para recursos Azure para evitar almacenar credenciales con las aplicaciones que se ejecutan en la nube.

Use las claves de API con precaución. No incluya la clave de API directamente en el código ni la exponga nunca públicamente. Si usa claves de API, almacénelas de forma segura en Azure Key Vault, gire las claves periódicamente y restrinja el acceso a Azure Key Vault mediante el control de acceso basado en rol y las restricciones de acceso de red. Para obtener más información sobre el uso de claves de API de forma segura en las aplicaciones, consulte CLAVESAPI con Azure Key Vault.

Para obtener más información sobre la seguridad de los servicios de inteligencia artificial, consulte Authenticate requests to Azure AI services (Solicitudes de autenticación a Azure AI services.

Para establecer las variables de entorno para la clave de recurso de Voz y el punto de conexión, abra una ventana de consola y siga las instrucciones del sistema operativo y el entorno de desarrollo.

Para establecer la variable de entorno de SPEECH_KEY, reemplace su clave por una de las claves del recurso.
Para establecer la ENDPOINT variable de entorno, reemplace tu-punto-de-conexión por uno de los puntos de conexión para su recurso.

setx SPEECH_KEY your-key
setx ENDPOINT your-endpoint

Nota:

Si solo necesita acceder a las variables de entorno en la consola actual, puede establecer la variable de entorno con set en vez de setx.

Después de agregar las variables de entorno, puede que tenga que reiniciar cualquier programa que necesite leer las variables de entorno, incluida la ventana de consola. Por ejemplo, si usa Visual Studio como editor, reinicie Visual Studio antes de ejecutar el ejemplo.

Bash

Edite el archivo .bashrc y agregue las variables de entorno:

export SPEECH_KEY=your-key
export ENDPOINT=your-endpoint

Después de agregar las variables de entorno ejecute source ~/.bashrc en la ventana de consola para que los cambios surtan efecto.

Bash

Edite su archivo .bash_profile y agregue las variables de entorno:

export SPEECH_KEY=your-key
export ENDPOINT=your-endpoint

Después de agregar las variables de entorno ejecute source ~/.bash_profile en la ventana de consola para que los cambios surtan efecto.

Xcode

Para el desarrollo de iOS y macOS, establezca las variables de entorno en Xcode. Por ejemplo, siga estos pasos para establecer la variable de entorno en Xcode 13.4.1.

Seleccione Producto>Esquema>Editar esquema.
Seleccione Argumentos en la página Ejecutar (Depurar ejecución)
En Variables de entorno, seleccione el signo más (+) para agregar una nueva variable de entorno.
Escriba SPEECH_KEY en Nombre y la clave de recurso de Voz en Valor.

Para establecer la variable de entorno para el punto de conexión del recurso de Voz, siga los mismos pasos. Establezca ENDPOINT en el punto de conexión del recurso. Por ejemplo: https://YourServiceRegion.api.cognitive.microsoft.com.

Para obtener más opciones de configuración, consulte la documentación de Xcode.

Reconocimiento de voz a través de un micrófono

Siga estos pasos para crear una aplicación go e instalar el SDK de Voz.

Abra una ventana de la línea de comandos en la carpeta donde desea crear el nuevo proyecto. Ejecute este comando para crear un nuevo archivo de Go.
```
touch main.go
```

Reemplace el contenido de main.go por el código siguiente:

package main

import (
    "fmt"
    "os"

    "github.com/Microsoft/cognitive-services-speech-sdk-go/audio"
    "github.com/Microsoft/cognitive-services-speech-sdk-go/speech"
)

func main() {
    // This example requires environment variables named "SPEECH_KEY" and "ENDPOINT"
    speechKey := os.Getenv("SPEECH_KEY")
    endpoint := os.Getenv("ENDPOINT")

    speechConfig, err := speech.NewSpeechConfigFromEndpointWithSubscription(endpoint, speechKey)
    if err != nil {
        fmt.Println("Got an error: ", err)
        return
    }
    defer speechConfig.Close()

    audioConfig, err := audio.NewAudioConfigFromDefaultMicrophoneInput()
    if err != nil {
        fmt.Println("Got an error: ", err)
        return
    }
    defer audioConfig.Close()

    speechRecognizer, err := speech.NewSpeechRecognizerFromConfig(speechConfig, audioConfig)
    if err != nil {
        fmt.Println("Got an error: ", err)
        return
    }
    defer speechRecognizer.Close()

    fmt.Println("Speak into your microphone.")
    outcome := <-speechRecognizer.RecognizeOnceAsync()
    defer outcome.Close()
    if outcome.Error != nil {
        fmt.Println("Got an error: ", outcome.Error)
        return
    }

    fmt.Println("RECOGNIZED: Text=", outcome.Result.Text)
}

Para cambiar el idioma de reconocimiento de voz, reemplace en-US por otro idioma compatible. Por ejemplo, use es-ES para Español (España). Si no especifica un idioma, el valor predeterminado es en-US. Para más información sobre cómo identificar uno de los distintos idiomas que se pueden hablar, consulte Identificación del idioma.

Ejecute los siguientes comandos para crear un archivo />

go mod init captioning
go get github.com/Microsoft/cognitive-services-speech-sdk-go

Compile el módulo GO.
```
go build
```
Ejecute la nueva aplicación de consola para iniciar la síntesis de voz en el hablante predeterminado.
```
go run main.go
```
Importante

Asegúrese de establecer las variables de entorno SPEECH_KEY y ENDPOINT. Si no establece estas variables, se produce un fallo en el ejemplo, con un mensaje de error.
Hable por el micrófono cuando se le solicite. Lo que diga debería aparecer como texto:
```
Speak into your microphone.
RECOGNIZED: Text=I'm excited to try speech to text.
```

Comentarios

Estas son algunas otras consideraciones:

En este ejemplo se usa la operación RecognizeOnceAsync para transcribir expresiones de hasta 30 segundos, o hasta que se detecta el silencio. Para obtener información sobre el reconocimiento continuo de audio más largo, incluidas las conversaciones en varios idiomas, consulte Reconocimiento de voz.

Para reconocer la voz de un archivo de audio, use NewAudioConfigFromWavFileInput en lugar de NewAudioConfigFromDefaultMicrophoneInput:

audioConfig, err := audio.NewAudioConfigFromWavFileInput("YourAudioFile.wav")
if err != nil {
     fmt.Println("Got an error: ", err)
     return
}
defer audioConfig.Close()

Para archivos de audio comprimidos como MP4, instale GStreamer y utilice PullAudioInputStream o PushAudioInputStream. Para más información, consulte Uso de entradas de audio comprimido.

Limpieza de recursos

Puede usar el portal Azure o Azure interfaz de línea de comandos (CLI) para quitar el recurso de voz que creó.

documentación de Reference | Ejuelos adicionales en GitHub

En este inicio rápido, creará y ejecutará una aplicación para reconocer y realizar la conversión de voz en texto en tiempo real.

Sugerencia

Para una transcripción rápida de archivos de audio, considere la posibilidad de usar la API de transcripción rápida. La API de transcripción rápida admite características como la identificación y la diarización del idioma.

En cambio, para transcribir archivos de audio de forma asincrónica, consulte Qué es la transcripción por lotes. Si no está seguro de qué solución de conversión de voz en texto es adecuada para usted, consulte¿Qué es la conversión de voz en texto?

Requisitos previos

Una suscripción Azure. Puede crear una de forma gratuita.
Crear un recurso de AI Services para Speech en el portal de Azure.
Obtenga la clave y el punto de conexión del recurso de Voz. Una vez implementado el recurso de Voz, seleccione Ir al recurso para ver y administrar claves.

Configuración del entorno

Para configurar el entorno, instale el SDK de Voz. El ejemplo de este inicio rápido funciona con el Java Runtime.

Instalación de Apache Maven. A continuación, ejecute mvn -v para confirmar que la instalación se ha realizado correctamente.

Cree un nuevo archivo pom.xml en la raíz del proyecto y copie el siguiente código en él:

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>
    <groupId>com.microsoft.cognitiveservices.speech.samples</groupId>
    <artifactId>quickstart-eclipse</artifactId>
    <version>1.0.0-SNAPSHOT</version>
    <build>
        <sourceDirectory>src</sourceDirectory>
        <plugins>
        <plugin>
            <artifactId>maven-compiler-plugin</artifactId>
            <version>3.7.0</version>
            <configuration>
            <source>1.8</source>
            <target>1.8</target>
            </configuration>
        </plugin>
        </plugins>
    </build>
    <dependencies>
        <dependency>
        <groupId>com.microsoft.cognitiveservices.speech</groupId>
        <artifactId>client-sdk</artifactId>
        <version>1.43.0</version>
        </dependency>
    </dependencies>
</project>

Instale el SDK de Voz y las dependencias.
```
mvn clean dependency:copy-dependencies
```

Establecimiento de variables de entorno

Debe autenticar su aplicación para acceder a Herramientas de Foundry. En este artículo se muestra cómo usar variables de entorno para almacenar las credenciales. A continuación, puede acceder a las variables de entorno desde el código para autenticar la aplicación. Para producción, use una manera más segura de almacenar y acceder a sus credenciales.

Importante

Se recomienda Microsoft Entra ID autenticación con identidades administradas para recursos Azure para evitar almacenar credenciales con las aplicaciones que se ejecutan en la nube.

Use las claves de API con precaución. No incluya la clave de API directamente en el código ni la exponga nunca públicamente. Si usa claves de API, almacénelas de forma segura en Azure Key Vault, gire las claves periódicamente y restrinja el acceso a Azure Key Vault mediante el control de acceso basado en rol y las restricciones de acceso de red. Para obtener más información sobre el uso de claves de API de forma segura en las aplicaciones, consulte CLAVESAPI con Azure Key Vault.

Para obtener más información sobre la seguridad de los servicios de inteligencia artificial, consulte Authenticate requests to Azure AI services (Solicitudes de autenticación a Azure AI services.

Para establecer las variables de entorno para la clave de recurso de Voz y el punto de conexión, abra una ventana de consola y siga las instrucciones del sistema operativo y el entorno de desarrollo.

Para establecer la variable de entorno de SPEECH_KEY, reemplace su clave por una de las claves del recurso.
Para establecer la ENDPOINT variable de entorno, reemplace tu-punto-de-conexión por uno de los puntos de conexión para su recurso.

setx SPEECH_KEY your-key
setx ENDPOINT your-endpoint

Nota:

Si solo necesita acceder a las variables de entorno en la consola actual, puede establecer la variable de entorno con set en vez de setx.

Después de agregar las variables de entorno, puede que tenga que reiniciar cualquier programa que necesite leer las variables de entorno, incluida la ventana de consola. Por ejemplo, si usa Visual Studio como editor, reinicie Visual Studio antes de ejecutar el ejemplo.

Bash

Edite el archivo .bashrc y agregue las variables de entorno:

export SPEECH_KEY=your-key
export ENDPOINT=your-endpoint

Después de agregar las variables de entorno ejecute source ~/.bashrc en la ventana de consola para que los cambios surtan efecto.

Bash

Edite su archivo .bash_profile y agregue las variables de entorno:

export SPEECH_KEY=your-key
export ENDPOINT=your-endpoint

Después de agregar las variables de entorno ejecute source ~/.bash_profile en la ventana de consola para que los cambios surtan efecto.

Xcode

Para el desarrollo de iOS y macOS, establezca las variables de entorno en Xcode. Por ejemplo, siga estos pasos para establecer la variable de entorno en Xcode 13.4.1.

Seleccione Producto>Esquema>Editar esquema.
Seleccione Argumentos en la página Ejecutar (Depurar ejecución)
En Variables de entorno, seleccione el signo más (+) para agregar una nueva variable de entorno.
Escriba SPEECH_KEY en Nombre y la clave de recurso de Voz en Valor.

Para establecer la variable de entorno para el punto de conexión del recurso de Voz, siga los mismos pasos. Establezca ENDPOINT en el punto de conexión del recurso. Por ejemplo: https://YourServiceRegion.api.cognitive.microsoft.com.

Para obtener más opciones de configuración, consulte la documentación de Xcode.

Reconocimiento de voz a través de un micrófono

Siga estos pasos para crear una aplicación de consola para el reconocimiento de voz.

Cree un nuevo archivo denominado SpeechRecognition.java en el mismo directorio raíz del proyecto.

Copie el siguiente código en SpeechRecognition.java:

import com.microsoft.cognitiveservices.speech.*;
import com.microsoft.cognitiveservices.speech.audio.AudioConfig;

import java.net.URI;
import java.net.URISyntaxException;
import java.util.concurrent.ExecutionException;
import java.util.concurrent.Future;

public class SpeechRecognition {
    // This example requires environment variables named "SPEECH_KEY" and "ENDPOINT"
    private static String speechKey = System.getenv("SPEECH_KEY");
    private static String endpoint = System.getenv("ENDPOINT");

    public static void main(String[] args) throws InterruptedException, ExecutionException, URISyntaxException {
        SpeechConfig speechConfig = SpeechConfig.fromEndpoint(new URI(endpoint), speechKey);
        speechConfig.setSpeechRecognitionLanguage("en-US");
        recognizeFromMicrophone(speechConfig);
    }

    public static void recognizeFromMicrophone(SpeechConfig speechConfig) throws InterruptedException, ExecutionException {
        AudioConfig audioConfig = AudioConfig.fromDefaultMicrophoneInput();
        SpeechRecognizer speechRecognizer = new SpeechRecognizer(speechConfig, audioConfig);

        System.out.println("Speak into your microphone.");
        Future<SpeechRecognitionResult> task = speechRecognizer.recognizeOnceAsync();
        SpeechRecognitionResult speechRecognitionResult = task.get();

        if (speechRecognitionResult.getReason() == ResultReason.RecognizedSpeech) {
            System.out.println("RECOGNIZED: Text=" + speechRecognitionResult.getText());
        }
        else if (speechRecognitionResult.getReason() == ResultReason.NoMatch) {
            System.out.println("NOMATCH: Speech could not be recognized.");
        }
        else if (speechRecognitionResult.getReason() == ResultReason.Canceled) {
            CancellationDetails cancellation = CancellationDetails.fromResult(speechRecognitionResult);
            System.out.println("CANCELED: Reason=" + cancellation.getReason());

            if (cancellation.getReason() == CancellationReason.Error) {
                System.out.println("CANCELED: ErrorCode=" + cancellation.getErrorCode());
                System.out.println("CANCELED: ErrorDetails=" + cancellation.getErrorDetails());
                System.out.println("CANCELED: Did you set the speech resource key and endpoint values?");
            }
        }

        System.exit(0);
    }
}

Para cambiar el idioma de reconocimiento de voz, reemplace en-US por otro idioma compatible. Por ejemplo, use es-ES para Español (España). Si no especifica un idioma, el valor predeterminado es en-US. Para más información sobre cómo identificar uno de los distintos idiomas que se pueden hablar, consulte Identificación del idioma.
Ejecute la nueva aplicación de consola para iniciar el reconocimiento de voz a través de un micrófono:
```
javac SpeechRecognition.java -cp ".;target\dependency\*"
java -cp ".;target\dependency\*" SpeechRecognition
```
Importante

Asegúrese de establecer las variables de entorno SPEECH_KEY y ENDPOINT. Si no establece estas variables, se produce un fallo en el ejemplo, con un mensaje de error.
Hable por el micrófono cuando se le solicite. Lo que diga debería aparecer como texto:
```
Speak into your microphone.
RECOGNIZED: Text=I'm excited to try speech to text.
```

Comentarios

Estas son algunas otras consideraciones:

En este ejemplo se usa la operación RecognizeOnceAsync para transcribir expresiones de hasta 30 segundos, o hasta que se detecta el silencio. Para obtener información sobre el reconocimiento continuo de audio más largo, incluidas las conversaciones en varios idiomas, consulte Reconocimiento de voz.
Para reconocer la voz de un archivo de audio, use fromWavFileInput en lugar de fromDefaultMicrophoneInput:
```
AudioConfig audioConfig = AudioConfig.fromWavFileInput("YourAudioFile.wav");
```
Para archivos de audio comprimidos como MP4, instale GStreamer y utilice PullAudioInputStream o PushAudioInputStream. Para más información, consulte Uso de entradas de audio comprimido.

Limpieza de recursos

Puede usar el portal Azure o Azure interfaz de línea de comandos (CLI) para quitar el recurso de voz que creó.

Reference documentation | Package (npm) | Additional samples on GitHub | Library source code

En este inicio rápido, creará y ejecutará una aplicación para reconocer y realizar la conversión de voz en texto en tiempo real.

Sugerencia

Para una transcripción rápida de archivos de audio, considere la posibilidad de usar la API de transcripción rápida. La API de transcripción rápida admite características como la identificación y la diarización del idioma.

En cambio, para transcribir archivos de audio de forma asincrónica, consulte Qué es la transcripción por lotes. Si no está seguro de qué solución de conversión de voz en texto es adecuada para usted, consulte¿Qué es la conversión de voz en texto?

Requisitos previos

Una suscripción Azure. Puede crear una de forma gratuita.
Crear un recurso Foundry para Speech en el portal de Azure.
Obtenga la clave y la región del recurso de Voz. Una vez implementado el recurso de Voz, seleccione Ir al recurso para ver y administrar claves.

También necesita un archivo de audio .wav en el equipo local. Puede usar su propio archivo .wav (hasta 30 segundos) o descargar el archivo de ejemplo https://crbn.us/whatstheweatherlike.wav.

Configuración

Cree una nueva carpeta transcription-quickstart y vaya a la carpeta quickstart mediante el siguiente comando:
```
mkdir transcription-quickstart && cd transcription-quickstart
```
Cree el package.json con el comando siguiente:
```
npm init -y
```

Instale el SDK de Voz para JavaScript con:

npm install microsoft-cognitiveservices-speech-sdk

Recuperación de información de recursos

Debe autenticar su aplicación para acceder a Herramientas de Foundry. En este artículo se muestra cómo usar variables de entorno para almacenar las credenciales. A continuación, puede acceder a las variables de entorno desde el código para autenticar la aplicación. Para producción, use una manera más segura de almacenar y acceder a sus credenciales.

Importante

Se recomienda Microsoft Entra ID autenticación con identidades administradas para recursos Azure para evitar almacenar credenciales con las aplicaciones que se ejecutan en la nube.

Use las claves de API con precaución. No incluya la clave de API directamente en el código ni la exponga nunca públicamente. Si usa claves de API, almacénelas de forma segura en Azure Key Vault, gire las claves periódicamente y restrinja el acceso a Azure Key Vault mediante el control de acceso basado en rol y las restricciones de acceso de red. Para obtener más información sobre el uso de claves de API de forma segura en las aplicaciones, consulte CLAVESAPI con Azure Key Vault.

Para obtener más información sobre la seguridad de los servicios de inteligencia artificial, consulte Authenticate requests to Azure AI services (Solicitudes de autenticación a Azure AI services.

Para establecer las variables de entorno de su clave de recursos de voz y de su región, abra una ventana de la consola y siga las instrucciones correspondientes a su sistema operativo y a su entorno de desarrollo.

Para establecer la variable de entorno de SPEECH_KEY, reemplace su clave por una de las claves del recurso.
Para establecer la variable de entorno de SPEECH_REGION, reemplace su región por una de las regiones del recurso.
Para establecer la ENDPOINT variable de entorno, reemplácela por your-endpoint el punto de conexión real del recurso de Voz.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint

Nota:

Si solo necesita acceder a las variables de entorno en la consola actual, puede establecer la variable de entorno con set en vez de setx.

Después de agregar las variables de entorno, puede que tenga que reiniciar cualquier programa que necesite leer las variables de entorno, incluida la ventana de consola. Por ejemplo, si usa Visual Studio como editor, reinicie Visual Studio antes de ejecutar el ejemplo.

Bash

Edite el archivo .bashrc y agregue las variables de entorno:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region
export ENDPOINT=your-endpoint

Después de agregar las variables de entorno ejecute source ~/.bashrc en la ventana de consola para que los cambios surtan efecto.

Bash

Edite su archivo .bash_profile y agregue las variables de entorno:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region
export ENDPOINT=your-endpoint

Después de agregar las variables de entorno ejecute source ~/.bash_profile en la ventana de consola para que los cambios surtan efecto.

Xcode

Para el desarrollo de iOS y macOS, establezca las variables de entorno en Xcode. Por ejemplo, siga estos pasos para establecer la variable de entorno en Xcode 13.4.1.

Seleccione Producto>Esquema>Editar esquema.
Seleccione Argumentos en la página Ejecutar (Depurar ejecución)
En Variables de entorno, seleccione el signo más (+) para agregar una nueva variable de entorno.
Escriba SPEECH_KEY en Nombre y la clave de recurso de Voz en Valor.

Para establecer la variable de entorno en la región de recursos de Voz, siga los mismos pasos. Establezca SPEECH_REGION en la región del recurso. Por ejemplo: westus. Establezca ENDPOINT como punto de conexión de su recurso.

Para obtener más opciones de configuración, consulte la documentación de Xcode.

Reconocer la voz a partir de un archivo

Para transcribir la voz desde un archivo:

Cree un nuevo archivo denominado transcription.js con el siguiente contenido:

import { readFileSync, createReadStream } from "fs";
import { SpeechConfig, AudioConfig, ConversationTranscriber, AudioInputStream } from "microsoft-cognitiveservices-speech-sdk";
// This example requires environment variables named "ENDPOINT" and "SPEECH_KEY"
const speechConfig = SpeechConfig.fromEndpoint(new URL(process.env.ENDPOINT), process.env.SPEECH_KEY);
function fromFile() {
    const filename = "katiesteve.wav";
    const audioConfig = AudioConfig.fromWavFileInput(readFileSync(filename));
    const conversationTranscriber = new ConversationTranscriber(speechConfig, audioConfig);
    const pushStream = AudioInputStream.createPushStream();
    createReadStream(filename).on('data', function (chunk) {
        pushStream.write(chunk.slice());
    }).on('end', function () {
        pushStream.close();
    });
    console.log("Transcribing from: " + filename);
    conversationTranscriber.sessionStarted = function (s, e) {
        console.log("SessionStarted event");
        console.log("SessionId:" + e.sessionId);
    };
    conversationTranscriber.sessionStopped = function (s, e) {
        console.log("SessionStopped event");
        console.log("SessionId:" + e.sessionId);
        conversationTranscriber.stopTranscribingAsync();
    };
    conversationTranscriber.canceled = function (s, e) {
        console.log("Canceled event");
        console.log(e.errorDetails);
        conversationTranscriber.stopTranscribingAsync();
    };
    conversationTranscriber.transcribed = function (s, e) {
        console.log("TRANSCRIBED: Text=" + e.result.text + " Speaker ID=" + e.result.speakerId);
    };
    // Start conversation transcription
    conversationTranscriber.startTranscribingAsync(function () { }, function (err) {
        console.trace("err - starting transcription: " + err);
    });
}
fromFile();

En transcription.js, reemplace YourAudioFile.wav por su propio archivo .wav . En este ejemplo solo se reconoce la voz desde un archivo.wav. Para obtener información sobre otros formatos de audio, consulte Uso de entradas de audio comprimidas. Este ejemplo admite hasta 30 segundos de audio.

Para cambiar el idioma de reconocimiento de voz, reemplace en-US por otro idioma compatible. Por ejemplo, use es-ES para Español (España). Si no especifica un idioma, el valor predeterminado es en-US. Para más información sobre cómo identificar uno de los distintos idiomas que se pueden hablar, consulte Identificación del idioma.

Ejecute la nueva aplicación de consola para iniciar el reconocimiento de voz desde un archivo:
```
node transcription.js
```

Espere unos instantes para obtener la respuesta.

Salida

La voz del archivo de audio debe devolverse como texto:

RECOGNIZED: Text=I'm excited to try speech to text.

Comentarios

En este ejemplo se usa la operación recognizeOnceAsync para transcribir expresiones de hasta 30 segundos, o hasta que se detecta el silencio. Para obtener información sobre el reconocimiento continuo de audio más largo, incluidas las conversaciones en varios idiomas, consulte Reconocimiento de voz.

Nota:

No se admite el reconocimiento de voz a través de un micrófono en Node.js. Solo se admite en un entorno de JavaScript basado en explorador. Para obtener más información, consulte el ejemplo React y la implementación de voz en texto desde un micrófono en GitHub.

En el ejemplo de React se muestran patrones de diseño para el intercambio y la administración de tokens de autenticación. También se muestra la captura de audio desde un micrófono o un archivo para realizar conversiones de voz en texto.

Limpieza de recursos

Puede usar el portal Azure o Azure interfaz de línea de comandos (CLI) para quitar el recurso de voz que creó.

documentación de Reference | Package (PyPi) | Ejemplos adicionales en GitHub

En este inicio rápido, creará y ejecutará una aplicación para reconocer y realizar la conversión de voz en texto en tiempo real.

Sugerencia

Para una transcripción rápida de archivos de audio, considere la posibilidad de usar la API de transcripción rápida. La API de transcripción rápida admite características como la identificación y la diarización del idioma.

En cambio, para transcribir archivos de audio de forma asincrónica, consulte Qué es la transcripción por lotes. Si no está seguro de qué solución de conversión de voz en texto es adecuada para usted, consulte¿Qué es la conversión de voz en texto?

Requisitos previos

Una suscripción Azure. Puede crear una de forma gratuita.
Crear un recurso de AI Services para Speech en el portal de Azure.
Obtenga la clave y el punto de conexión del recurso de Voz. Una vez implementado el recurso de Voz, seleccione Ir al recurso para ver y administrar claves.

Configuración del entorno

El SDK de Voz para Python está disponible como un módulo Python Package Index (PyPI). El SDK de Voz para Python es compatible con Windows, Linux y macOS.

Para Windows, instale el Microsoft Visual C++ Redistributable para Visual Studio 2015, 2017, 2019 y 2022 para su plataforma. Durante la primera instalación del paquete, es posible que deba reiniciar.
En Linux, debe usar la arquitectura de destino x64.

Instale una versión de Python desde la versión 3.7 o posterior. Para conocer los demás requisitos, consulte Instalación del SDK de Voz.

Establecimiento de variables de entorno

Debe autenticar su aplicación para acceder a Herramientas de Foundry. En este artículo se muestra cómo usar variables de entorno para almacenar las credenciales. A continuación, puede acceder a las variables de entorno desde el código para autenticar la aplicación. Para producción, use una manera más segura de almacenar y acceder a sus credenciales.

Importante

Se recomienda Microsoft Entra ID autenticación con identidades administradas para recursos Azure para evitar almacenar credenciales con las aplicaciones que se ejecutan en la nube.

Use las claves de API con precaución. No incluya la clave de API directamente en el código ni la exponga nunca públicamente. Si usa claves de API, almacénelas de forma segura en Azure Key Vault, gire las claves periódicamente y restrinja el acceso a Azure Key Vault mediante el control de acceso basado en rol y las restricciones de acceso de red. Para obtener más información sobre el uso de claves de API de forma segura en las aplicaciones, consulte CLAVESAPI con Azure Key Vault.

Para obtener más información sobre la seguridad de los servicios de inteligencia artificial, consulte Authenticate requests to Azure AI services (Solicitudes de autenticación a Azure AI services.

Para establecer las variables de entorno para la clave de recurso de Voz y el punto de conexión, abra una ventana de consola y siga las instrucciones del sistema operativo y el entorno de desarrollo.

Para establecer la variable de entorno de SPEECH_KEY, reemplace su clave por una de las claves del recurso.
Para establecer la ENDPOINT variable de entorno, reemplace tu-punto-de-conexión por uno de los puntos de conexión para su recurso.

setx SPEECH_KEY your-key
setx ENDPOINT your-endpoint

Nota:

Si solo necesita acceder a las variables de entorno en la consola actual, puede establecer la variable de entorno con set en vez de setx.

Después de agregar las variables de entorno, puede que tenga que reiniciar cualquier programa que necesite leer las variables de entorno, incluida la ventana de consola. Por ejemplo, si usa Visual Studio como editor, reinicie Visual Studio antes de ejecutar el ejemplo.

Bash

Edite el archivo .bashrc y agregue las variables de entorno:

export SPEECH_KEY=your-key
export ENDPOINT=your-endpoint

Después de agregar las variables de entorno ejecute source ~/.bashrc en la ventana de consola para que los cambios surtan efecto.

Bash

Edite su archivo .bash_profile y agregue las variables de entorno:

export SPEECH_KEY=your-key
export ENDPOINT=your-endpoint

Después de agregar las variables de entorno ejecute source ~/.bash_profile en la ventana de consola para que los cambios surtan efecto.

Xcode

Para el desarrollo de iOS y macOS, establezca las variables de entorno en Xcode. Por ejemplo, siga estos pasos para establecer la variable de entorno en Xcode 13.4.1.

Seleccione Producto>Esquema>Editar esquema.
Seleccione Argumentos en la página Ejecutar (Depurar ejecución)
En Variables de entorno, seleccione el signo más (+) para agregar una nueva variable de entorno.
Escriba SPEECH_KEY en Nombre y la clave de recurso de Voz en Valor.

Para establecer la variable de entorno para el punto de conexión del recurso de Voz, siga los mismos pasos. Establezca ENDPOINT en el punto de conexión del recurso. Por ejemplo: https://YourServiceRegion.api.cognitive.microsoft.com.

Para obtener más opciones de configuración, consulte la documentación de Xcode.

Reconocimiento de voz a través de un micrófono

Sugerencia

Pruebe el Azure Speech in Foundry Tools Toolkit para compilar y ejecutar fácilmente ejemplos en Visual Studio Code.

Siga estos pasos para crear una aplicación de consola.

Abra una ventana de la línea de comandos en la carpeta donde desea crear el nuevo proyecto. Cree un nuevo archivo denominado speech_recognition.py.
Ejecute este comando para instalar el SDK de voz:
```
pip install azure-cognitiveservices-speech
```

Copie el siguiente código en speech_recognition.py:

import os
import azure.cognitiveservices.speech as speechsdk

def recognize_from_microphone():
     # This example requires environment variables named "SPEECH_KEY" and "ENDPOINT"
     # Replace with your own subscription key and endpoint, the endpoint is like : "https://YourServiceRegion.api.cognitive.microsoft.com"
    speech_config = speechsdk.SpeechConfig(subscription=os.environ.get('SPEECH_KEY'), endpoint=os.environ.get('ENDPOINT'))
    speech_config.speech_recognition_language="en-US"

    audio_config = speechsdk.audio.AudioConfig(use_default_microphone=True)
    speech_recognizer = speechsdk.SpeechRecognizer(speech_config=speech_config, audio_config=audio_config)

    print("Speak into your microphone.")
    speech_recognition_result = speech_recognizer.recognize_once_async().get()

    if speech_recognition_result.reason == speechsdk.ResultReason.RecognizedSpeech:
        print("Recognized: {}".format(speech_recognition_result.text))
    elif speech_recognition_result.reason == speechsdk.ResultReason.NoMatch:
        print("No speech could be recognized: {}".format(speech_recognition_result.no_match_details))
    elif speech_recognition_result.reason == speechsdk.ResultReason.Canceled:
        cancellation_details = speech_recognition_result.cancellation_details
        print("Speech Recognition canceled: {}".format(cancellation_details.reason))
        if cancellation_details.reason == speechsdk.CancellationReason.Error:
            print("Error details: {}".format(cancellation_details.error_details))
            print("Did you set the speech resource key and endpoint values?")

recognize_from_microphone()

Para cambiar el idioma de reconocimiento de voz, reemplace en-US por otro idioma compatible. Por ejemplo, use es-ES para Español (España). Si no especifica un idioma, el valor predeterminado es en-US. Para obtener más información sobre cómo identificar uno de los distintos idiomas que se pueden hablar, consulte Identificación del idioma.
Ejecute la nueva aplicación de consola para iniciar el reconocimiento de voz a través de un micrófono:
```
python speech_recognition.py
```
Importante

Asegúrese de establecer las variables de entorno SPEECH_KEY y ENDPOINT. Si no establece estas variables, se produce un fallo en el ejemplo, con un mensaje de error.
Hable por el micrófono cuando se le solicite. Lo que diga debería aparecer como texto:
```
Speak into your microphone.
RECOGNIZED: Text=I'm excited to try speech to text.
```

Comentarios

Estas son algunas otras consideraciones:

En este ejemplo se usa la operación recognize_once_async para transcribir expresiones de hasta 30 segundos, o hasta que se detecta el silencio. Para obtener información sobre el reconocimiento continuo de audio más largo, incluidas las conversaciones en varios idiomas, consulte Reconocimiento de voz.
Para reconocer la voz de un archivo de audio, use filename en lugar de use_default_microphone:
```
audio_config = speechsdk.audio.AudioConfig(filename="YourAudioFile.wav")
```
Para archivos de audio comprimidos como MP4, instale GStreamer y utilice PullAudioInputStream o PushAudioInputStream. Para más información, consulte Uso de entradas de audio comprimido.

Limpieza de recursos

Puede usar el portal Azure o Azure interfaz de línea de comandos (CLI) para quitar el recurso de voz que creó.

Reference documentation | Package (download) | Additional samples on GitHub

En este inicio rápido, creará y ejecutará una aplicación para reconocer y realizar la conversión de voz en texto en tiempo real.

Sugerencia

Para una transcripción rápida de archivos de audio, considere la posibilidad de usar la API de transcripción rápida. La API de transcripción rápida admite características como la identificación y la diarización del idioma.

En cambio, para transcribir archivos de audio de forma asincrónica, consulte Qué es la transcripción por lotes. Si no está seguro de qué solución de conversión de voz en texto es adecuada para usted, consulte¿Qué es la conversión de voz en texto?

Requisitos previos

Una suscripción Azure. Puede crear una de forma gratuita.
Crear un recurso Foundry para Speech en el portal de Azure.
Obtenga la clave y la región del recurso de Voz. Una vez implementado el recurso de Voz, seleccione Ir al recurso para ver y administrar claves.

Configuración del entorno

El SDK de Voz para Swift se distribuye como un paquete de marcos. El marco admite Objective-C y Swift en iOS y macOS.

El SDK de Voz se puede usar en proyectos de Xcode como CocoaPod o se puede descargar directamente y vincular manualmente. En esta guía se usa CocoaPod. Instale el administrador de dependencias de CocoaPod como se describe en sus instrucciones de instalación.

Establecimiento de variables de entorno

Debe autenticar su aplicación para acceder a Herramientas de Foundry. En este artículo se muestra cómo usar variables de entorno para almacenar las credenciales. A continuación, puede acceder a las variables de entorno desde el código para autenticar la aplicación. Para producción, use una manera más segura de almacenar y acceder a sus credenciales.

Importante

Se recomienda Microsoft Entra ID autenticación con identidades administradas para recursos Azure para evitar almacenar credenciales con las aplicaciones que se ejecutan en la nube.

Use las claves de API con precaución. No incluya la clave de API directamente en el código ni la exponga nunca públicamente. Si usa claves de API, almacénelas de forma segura en Azure Key Vault, gire las claves periódicamente y restrinja el acceso a Azure Key Vault mediante el control de acceso basado en rol y las restricciones de acceso de red. Para obtener más información sobre el uso de claves de API de forma segura en las aplicaciones, consulte CLAVESAPI con Azure Key Vault.

Para obtener más información sobre la seguridad de los servicios de inteligencia artificial, consulte Authenticate requests to Azure AI services (Solicitudes de autenticación a Azure AI services.

Para establecer las variables de entorno de su clave de recursos de voz y de su región, abra una ventana de la consola y siga las instrucciones correspondientes a su sistema operativo y a su entorno de desarrollo.

Para establecer la variable de entorno de SPEECH_KEY, reemplace su clave por una de las claves del recurso.
Para establecer la variable de entorno de SPEECH_REGION, reemplace su región por una de las regiones del recurso.
Para establecer la ENDPOINT variable de entorno, reemplácela por your-endpoint el punto de conexión real del recurso de Voz.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint

Nota:

Si solo necesita acceder a las variables de entorno en la consola actual, puede establecer la variable de entorno con set en vez de setx.

Después de agregar las variables de entorno, puede que tenga que reiniciar cualquier programa que necesite leer las variables de entorno, incluida la ventana de consola. Por ejemplo, si usa Visual Studio como editor, reinicie Visual Studio antes de ejecutar el ejemplo.

Bash

Edite el archivo .bashrc y agregue las variables de entorno:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region
export ENDPOINT=your-endpoint

Después de agregar las variables de entorno ejecute source ~/.bashrc en la ventana de consola para que los cambios surtan efecto.

Bash

Edite su archivo .bash_profile y agregue las variables de entorno:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region
export ENDPOINT=your-endpoint

Después de agregar las variables de entorno ejecute source ~/.bash_profile en la ventana de consola para que los cambios surtan efecto.

Xcode

Para el desarrollo de iOS y macOS, establezca las variables de entorno en Xcode. Por ejemplo, siga estos pasos para establecer la variable de entorno en Xcode 13.4.1.

Seleccione Producto>Esquema>Editar esquema.
Seleccione Argumentos en la página Ejecutar (Depurar ejecución)
En Variables de entorno, seleccione el signo más (+) para agregar una nueva variable de entorno.
Escriba SPEECH_KEY en Nombre y la clave de recurso de Voz en Valor.

Para establecer la variable de entorno en la región de recursos de Voz, siga los mismos pasos. Establezca SPEECH_REGION en la región del recurso. Por ejemplo: westus. Establezca ENDPOINT como punto de conexión de su recurso.

Para obtener más opciones de configuración, consulte la documentación de Xcode.

Reconocimiento de voz a través de un micrófono

Siga estos pasos para reconocer la voz en una aplicación de macOS.

Clone el repositorio Azure-Samples/cognitive-services-speech-sdk para obtener el Recognize voz desde un micrófono en Swift en macOS proyecto de ejemplo. El repositorio también tiene ejemplos de iOS.
Vaya al directorio de la aplicación de ejemplo descargada (helloworld) en un terminal.
Ejecute el comando pod install. Este comando genera un área de trabajo de Xcode helloworld.xcworkspace que contiene la aplicación de ejemplo y el SDK de Voz como dependencia.
Abra el área de trabajo helloworld.xcworkspace en Xcode.

Abra el archivo llamado AppDelegate.swift y busque los métodos applicationDidFinishLaunching y recognizeFromMic tal como se muestra aquí.

import Cocoa

@NSApplicationMain
class AppDelegate: NSObject, NSApplicationDelegate {
    var label: NSTextField!
    var fromMicButton: NSButton!

    var sub: String!
    var region: String!

    @IBOutlet weak var window: NSWindow!

    func applicationDidFinishLaunching(_ aNotification: Notification) {
        print("loading")
        // load subscription information
        sub = ProcessInfo.processInfo.environment["SPEECH_KEY"]
        region = ProcessInfo.processInfo.environment["SPEECH_REGION"]

        label = NSTextField(frame: NSRect(x: 100, y: 50, width: 200, height: 200))
        label.textColor = NSColor.black
        label.lineBreakMode = .byWordWrapping

        label.stringValue = "Recognition Result"
        label.isEditable = false

        self.window.contentView?.addSubview(label)

        fromMicButton = NSButton(frame: NSRect(x: 100, y: 300, width: 200, height: 30))
        fromMicButton.title = "Recognize"
        fromMicButton.target = self
        fromMicButton.action = #selector(fromMicButtonClicked)
        self.window.contentView?.addSubview(fromMicButton)
    }

    @objc func fromMicButtonClicked() {
        DispatchQueue.global(qos: .userInitiated).async {
            self.recognizeFromMic()
        }
    }

    func recognizeFromMic() {
        var speechConfig: SPXSpeechConfiguration?
        do {
            try speechConfig = SPXSpeechConfiguration(subscription: sub, region: region)
        } catch {
            print("error \(error) happened")
            speechConfig = nil
        }
        speechConfig?.speechRecognitionLanguage = "en-US"

        let audioConfig = SPXAudioConfiguration()

        let reco = try! SPXSpeechRecognizer(speechConfiguration: speechConfig!, audioConfiguration: audioConfig)

        reco.addRecognizingEventHandler() {reco, evt in
            print("intermediate recognition result: \(evt.result.text ?? "(no result)")")
            self.updateLabel(text: evt.result.text, color: .gray)
        }

        updateLabel(text: "Listening ...", color: .gray)
        print("Listening...")

        let result = try! reco.recognizeOnce()
        print("recognition result: \(result.text ?? "(no result)"), reason: \(result.reason.rawValue)")
        updateLabel(text: result.text, color: .black)

        if result.reason != SPXResultReason.recognizedSpeech {
            let cancellationDetails = try! SPXCancellationDetails(fromCanceledRecognitionResult: result)
            print("cancelled: \(result.reason), \(cancellationDetails.errorDetails)")
            print("Did you set the speech resource key and region values?")
            updateLabel(text: "Error: \(cancellationDetails.errorDetails)", color: .red)
        }
    }

    func updateLabel(text: String?, color: NSColor) {
        DispatchQueue.main.async {
            self.label.stringValue = text!
            self.label.textColor = color
        }
    }
}

En AppDelegate.m, use las variables de entorno que estableció anteriormente para su clave de recurso de Voz y región.

sub = ProcessInfo.processInfo.environment["SPEECH_KEY"]
region = ProcessInfo.processInfo.environment["SPEECH_REGION"]

Para cambiar el idioma de reconocimiento de voz, reemplace en-US por otro idioma compatible. Por ejemplo, use es-ES para Español (España). Si no especifica un idioma, el valor predeterminado es en-US. Para más información sobre cómo identificar uno de los distintos idiomas que se pueden hablar, consulte Identificación del idioma.
Para hacer visible la salida de depuración, seleccione Ver>Área de depuración>Activar consola.
Para compilar y ejecutar el código de ejemplo, seleccione Producto>Ejecutar en el menú o seleccione el botón Reproducir.

Importante

Asegúrese de establecer las variables de entorno SPEECH_KEY y SPEECH_REGION. Si no establece estas variables, se produce un fallo en el ejemplo, con un mensaje de error.

Después de seleccionar el botón de la aplicación y decir algunas palabras, verá el texto que ha dicho en la parte inferior de la pantalla. Al ejecutar la aplicación por primera vez, se le solicita que proporcione a la aplicación acceso al micrófono del equipo.

Comentarios

En este ejemplo se usa la operación recognizeOnce para transcribir expresiones de hasta 30 segundos, o hasta que se detecta el silencio. Para obtener información sobre el reconocimiento continuo de audio más largo, incluidas las conversaciones en varios idiomas, consulte Reconocimiento de voz.

Objective-C

El SDK de Voz para Objective-C comparte bibliotecas cliente y documentación de referencia con el SDK de Voz para Swift. Para obtener Objective-C ejemplos de código, consulte el recognize speech from a microphone in Objective-C on macOS proyecto de ejemplo en GitHub.

Limpieza de recursos

Puede usar el portal Azure o Azure interfaz de línea de comandos (CLI) para quitar el recurso de voz que creó.

Reference documentation | Package (npm) | Additional samples on GitHub | Library source code

En este inicio rápido, creará y ejecutará una aplicación para reconocer y realizar la conversión de voz en texto en tiempo real.

Sugerencia

Para una transcripción rápida de archivos de audio, considere la posibilidad de usar la API de transcripción rápida. La API de transcripción rápida admite características como la identificación y la diarización del idioma.

En cambio, para transcribir archivos de audio de forma asincrónica, consulte Qué es la transcripción por lotes. Si no está seguro de qué solución de conversión de voz en texto es adecuada para usted, consulte¿Qué es la conversión de voz en texto?

Requisitos previos

Una suscripción Azure. Puede crear una de forma gratuita.
Crear un recurso Foundry para Speech en el portal de Azure.
Obtenga la clave y la región del recurso de Voz. Una vez implementado el recurso de Voz, seleccione Ir al recurso para ver y administrar claves.

También necesita un archivo de audio .wav en el equipo local. Puede usar su propio archivo .wav (hasta 30 segundos) o descargar el archivo de ejemplo https://crbn.us/whatstheweatherlike.wav.

Configuración

Cree una nueva carpeta transcription-quickstart y vaya a la carpeta quickstart mediante el siguiente comando:
```
mkdir transcription-quickstart && cd transcription-quickstart
```
Cree el package.json con el comando siguiente:
```
npm init -y
```
Actualice el package.json a ECMAScript con el siguiente comando:
```
npm pkg set type=module
```

Instale el SDK de Voz para JavaScript con:

npm install microsoft-cognitiveservices-speech-sdk

Debe instalar las definiciones de tipo Node.js para evitar errores de TypeScript. Ejecute el siguiente comando:
```
npm install --save-dev @types/node
```

Recuperación de información de recursos

Debe autenticar su aplicación para acceder a Herramientas de Foundry. En este artículo se muestra cómo usar variables de entorno para almacenar las credenciales. A continuación, puede acceder a las variables de entorno desde el código para autenticar la aplicación. Para producción, use una manera más segura de almacenar y acceder a sus credenciales.

Importante

Se recomienda Microsoft Entra ID autenticación con identidades administradas para recursos Azure para evitar almacenar credenciales con las aplicaciones que se ejecutan en la nube.

Use las claves de API con precaución. No incluya la clave de API directamente en el código ni la exponga nunca públicamente. Si usa claves de API, almacénelas de forma segura en Azure Key Vault, gire las claves periódicamente y restrinja el acceso a Azure Key Vault mediante el control de acceso basado en rol y las restricciones de acceso de red. Para obtener más información sobre el uso de claves de API de forma segura en las aplicaciones, consulte CLAVESAPI con Azure Key Vault.

Para obtener más información sobre la seguridad de los servicios de inteligencia artificial, consulte Authenticate requests to Azure AI services (Solicitudes de autenticación a Azure AI services.

Para establecer las variables de entorno de su clave de recursos de voz y de su región, abra una ventana de la consola y siga las instrucciones correspondientes a su sistema operativo y a su entorno de desarrollo.

Para establecer la variable de entorno de SPEECH_KEY, reemplace su clave por una de las claves del recurso.
Para establecer la variable de entorno de SPEECH_REGION, reemplace su región por una de las regiones del recurso.
Para establecer la ENDPOINT variable de entorno, reemplácela por your-endpoint el punto de conexión real del recurso de Voz.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint

Nota:

Si solo necesita acceder a las variables de entorno en la consola actual, puede establecer la variable de entorno con set en vez de setx.

Después de agregar las variables de entorno, puede que tenga que reiniciar cualquier programa que necesite leer las variables de entorno, incluida la ventana de consola. Por ejemplo, si usa Visual Studio como editor, reinicie Visual Studio antes de ejecutar el ejemplo.

Bash

Edite el archivo .bashrc y agregue las variables de entorno:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region
export ENDPOINT=your-endpoint

Después de agregar las variables de entorno ejecute source ~/.bashrc en la ventana de consola para que los cambios surtan efecto.

Bash

Edite su archivo .bash_profile y agregue las variables de entorno:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region
export ENDPOINT=your-endpoint

Después de agregar las variables de entorno ejecute source ~/.bash_profile en la ventana de consola para que los cambios surtan efecto.

Xcode

Para el desarrollo de iOS y macOS, establezca las variables de entorno en Xcode. Por ejemplo, siga estos pasos para establecer la variable de entorno en Xcode 13.4.1.

Seleccione Producto>Esquema>Editar esquema.
Seleccione Argumentos en la página Ejecutar (Depurar ejecución)
En Variables de entorno, seleccione el signo más (+) para agregar una nueva variable de entorno.
Escriba SPEECH_KEY en Nombre y la clave de recurso de Voz en Valor.

Para establecer la variable de entorno en la región de recursos de Voz, siga los mismos pasos. Establezca SPEECH_REGION en la región del recurso. Por ejemplo: westus. Establezca ENDPOINT como punto de conexión de su recurso.

Para obtener más opciones de configuración, consulte la documentación de Xcode.

Reconocer la voz a partir de un archivo

Para transcribir la voz desde un archivo:

Cree un nuevo archivo denominado transcription.ts con el siguiente contenido:

import { readFileSync } from "fs";
import { 
    SpeechConfig, 
    AudioConfig, 
    SpeechRecognizer, 
    ResultReason, 
    CancellationDetails, 
    CancellationReason,
    SpeechRecognitionResult 
} from "microsoft-cognitiveservices-speech-sdk";

// This example requires environment variables named "ENDPOINT" and "SPEECH_KEY"
const speechConfig: SpeechConfig = SpeechConfig.fromEndpoint(new URL(process.env.ENDPOINT!), process.env.SPEECH_KEY!);
speechConfig.speechRecognitionLanguage = "en-US";

function fromFile(): void {
    const audioConfig: AudioConfig = AudioConfig.fromWavFileInput(readFileSync("YourAudioFile.wav"));
    const speechRecognizer: SpeechRecognizer = new SpeechRecognizer(speechConfig, audioConfig);

    speechRecognizer.recognizeOnceAsync((result: SpeechRecognitionResult) => {
        switch (result.reason) {
            case ResultReason.RecognizedSpeech:
                console.log(`RECOGNIZED: Text=${result.text}`);
                break;
            case ResultReason.NoMatch:
                console.log("NOMATCH: Speech could not be recognized.");
                break;
            case ResultReason.Canceled:
                const cancellation: CancellationDetails = CancellationDetails.fromResult(result);
                console.log(`CANCELED: Reason=${cancellation.reason}`);

                if (cancellation.reason === CancellationReason.Error) {
                    console.log(`CANCELED: ErrorCode=${cancellation.ErrorCode}`);
                    console.log(`CANCELED: ErrorDetails=${cancellation.errorDetails}`);
                    console.log("CANCELED: Did you set the speech resource key and region values?");
                }
                break;
        }
        speechRecognizer.close();
    });
}

fromFile();

En transcription.ts, reemplace YourAudioFile.wav por su propio archivo .wav . En este ejemplo solo se reconoce la voz desde un archivo.wav. Para obtener información sobre otros formatos de audio, consulte Uso de entradas de audio comprimidas. Este ejemplo admite hasta 30 segundos de audio.

Para cambiar el idioma de reconocimiento de voz, reemplace en-US por otro idioma compatible. Por ejemplo, use es-ES para Español (España). Si no especifica un idioma, el valor predeterminado es en-US. Para más información sobre cómo identificar uno de los distintos idiomas que se pueden hablar, consulte Identificación del idioma.

Cree el archivo tsconfig.json para transpilar el código TypeScript y copie el código siguiente para ECMAScript.

{
    "compilerOptions": {
      "module": "NodeNext",
      "target": "ES2022", // Supports top-level await
      "moduleResolution": "NodeNext",
      "skipLibCheck": true, // Avoid type errors from node_modules
      "strict": true // Enable strict type-checking options
    },
    "include": ["*.ts"]
}

Transpile de TypeScript a JavaScript.
```
tsc
```
Este comando no debe generar ninguna salida si se ejecuta correctamente.
Ejecute la nueva aplicación de consola para iniciar el reconocimiento de voz desde un archivo:
```
node transcription.js
```

Espere unos instantes para obtener la respuesta.

Salida

La voz del archivo de audio debe devolverse como texto:

RECOGNIZED: Text=I'm excited to try speech to text.

Comentarios

En este ejemplo se usa la operación recognizeOnceAsync para transcribir expresiones de hasta 30 segundos, o hasta que se detecta el silencio. Para obtener información sobre el reconocimiento continuo de audio más largo, incluidas las conversaciones en varios idiomas, consulte Reconocimiento de voz.

Limpieza de recursos

Puede usar el portal Azure o Azure interfaz de línea de comandos (CLI) para quitar el recurso de voz que creó.

Speech to text REST API reference | Speech to text REST API for short audio reference | Additional samples on GitHub

En este inicio rápido, creará y ejecutará una aplicación para reconocer y realizar la conversión de voz en texto en tiempo real.

Sugerencia

Para una transcripción rápida de archivos de audio, considere la posibilidad de usar la API de transcripción rápida. La API de transcripción rápida admite características como la identificación y la diarización del idioma.

En cambio, para transcribir archivos de audio de forma asincrónica, consulte Qué es la transcripción por lotes. Si no está seguro de qué solución de conversión de voz en texto es adecuada para usted, consulte¿Qué es la conversión de voz en texto?

Requisitos previos

Una suscripción Azure. Puede crear una de forma gratuita.
Crear un recurso Foundry para Speech en el portal de Azure.
Obtenga la clave y la región del recurso de Voz. Una vez implementado el recurso de Voz, seleccione Ir al recurso para ver y administrar claves.

También necesita un archivo de audio .wav en el equipo local. Puede usar su propio archivo .wav hasta 60 segundos o descargar el archivo de ejemplo https://crbn.us/whatstheweatherlike.wav.

Establecimiento de variables de entorno

Debe autenticar su aplicación para acceder a Herramientas de Foundry. En este artículo se muestra cómo usar variables de entorno para almacenar las credenciales. A continuación, puede acceder a las variables de entorno desde el código para autenticar la aplicación. Para producción, use una manera más segura de almacenar y acceder a sus credenciales.

Importante

Se recomienda Microsoft Entra ID autenticación con identidades administradas para recursos Azure para evitar almacenar credenciales con las aplicaciones que se ejecutan en la nube.

Use las claves de API con precaución. No incluya la clave de API directamente en el código ni la exponga nunca públicamente. Si usa claves de API, almacénelas de forma segura en Azure Key Vault, gire las claves periódicamente y restrinja el acceso a Azure Key Vault mediante el control de acceso basado en rol y las restricciones de acceso de red. Para obtener más información sobre el uso de claves de API de forma segura en las aplicaciones, consulte CLAVESAPI con Azure Key Vault.

Para obtener más información sobre la seguridad de los servicios de inteligencia artificial, consulte Authenticate requests to Azure AI services (Solicitudes de autenticación a Azure AI services.

Para establecer las variables de entorno de su clave de recursos de voz y de su región, abra una ventana de la consola y siga las instrucciones correspondientes a su sistema operativo y a su entorno de desarrollo.

Para establecer la variable de entorno de SPEECH_KEY, reemplace su clave por una de las claves del recurso.
Para establecer la variable de entorno de SPEECH_REGION, reemplace su región por una de las regiones del recurso.
Para establecer la ENDPOINT variable de entorno, reemplácela por your-endpoint el punto de conexión real del recurso de Voz.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint

Nota:

Si solo necesita acceder a las variables de entorno en la consola actual, puede establecer la variable de entorno con set en vez de setx.

Después de agregar las variables de entorno, puede que tenga que reiniciar cualquier programa que necesite leer las variables de entorno, incluida la ventana de consola. Por ejemplo, si usa Visual Studio como editor, reinicie Visual Studio antes de ejecutar el ejemplo.

Bash

Edite el archivo .bashrc y agregue las variables de entorno:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region
export ENDPOINT=your-endpoint

Después de agregar las variables de entorno ejecute source ~/.bashrc en la ventana de consola para que los cambios surtan efecto.

Bash

Edite su archivo .bash_profile y agregue las variables de entorno:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region
export ENDPOINT=your-endpoint

Después de agregar las variables de entorno ejecute source ~/.bash_profile en la ventana de consola para que los cambios surtan efecto.

Xcode

Para el desarrollo de iOS y macOS, establezca las variables de entorno en Xcode. Por ejemplo, siga estos pasos para establecer la variable de entorno en Xcode 13.4.1.

Seleccione Producto>Esquema>Editar esquema.
Seleccione Argumentos en la página Ejecutar (Depurar ejecución)
En Variables de entorno, seleccione el signo más (+) para agregar una nueva variable de entorno.
Escriba SPEECH_KEY en Nombre y la clave de recurso de Voz en Valor.

Para establecer la variable de entorno en la región de recursos de Voz, siga los mismos pasos. Establezca SPEECH_REGION en la región del recurso. Por ejemplo: westus. Establezca ENDPOINT como punto de conexión de su recurso.

Para obtener más opciones de configuración, consulte la documentación de Xcode.

Reconocer la voz a partir de un archivo

Abra una ventana de la consola y ejecute el siguiente comando cURL. Reemplace YourAudioFile.wav por la ruta y el nombre del archivo de audio.

curl --location --request POST "https://%SPEECH_REGION%.stt.speech.microsoft.com/speech/recognition/conversation/cognitiveservices/v1?language=en-US&format=detailed" ^
--header "Ocp-Apim-Subscription-Key: %SPEECH_KEY%" ^
--header "Content-Type: audio/wav" ^
--data-binary "@YourAudioFile.wav"

audio_file=@'YourAudioFile.wav'

curl --location --request POST \
"https://${SPEECH_REGION}.stt.speech.microsoft.com/speech/recognition/conversation/cognitiveservices/v1?language=en-US&format=detailed" \
--header "Ocp-Apim-Subscription-Key: ${SPEECH_KEY}" \
--header "Content-Type: audio/wav" \
--data-binary $audio_file

audio_file=@'YourAudioFile.wav'

curl --location --request POST \
"https://${SPEECH_REGION}.stt.speech.microsoft.com/speech/recognition/conversation/cognitiveservices/v1?language=en-US&format=detailed" \
--header "Ocp-Apim-Subscription-Key: ${SPEECH_KEY}" \
--header "Content-Type: audio/wav" \
--data-binary $audio_file

Importante

Asegúrese de establecer las variables de entorno SPEECH_KEY y SPEECH_REGION. Si no establece estas variables, se produce un fallo en el ejemplo, con un mensaje de error.

Debería recibir una respuesta similar a la que se muestra aquí. DisplayText debe ser el texto que se ha reconocido desde el archivo de audio. El comando reconoce hasta 60 segundos de audio y lo convierte en texto.

{
    "RecognitionStatus": "Success",
    "DisplayText": "My voice is my passport, verify me.",
    "Offset": 6600000,
    "Duration": 32100000
}

Para más información, consulte API de REST de conversión de voz en texto para audios breves.

Limpieza de recursos

Puede usar el portal Azure o Azure interfaz de línea de comandos (CLI) para quitar el recurso de voz que creó.

Compartir a través de

Inicio rápido: Reconocimiento y conversión de voz en texto

Requisitos previos

Pruebe la conversión de voz en tiempo real en texto

Otras características de Foundry (nuevas)

Requisitos previos

Configuración del entorno

Establecimiento de variables de entorno

Reconocimiento de voz a través de un micrófono

Comentarios

Limpieza de recursos

Requisitos previos

Configuración del entorno

Establecimiento de variables de entorno

Reconocimiento de voz a través de un micrófono

Comentarios

Limpieza de recursos

Requisitos previos

Configuración del entorno

Establecimiento de variables de entorno

Reconocimiento de voz a través de un micrófono

Comentarios

Limpieza de recursos

Requisitos previos

Configuración del entorno

Establecimiento de variables de entorno

Reconocimiento de voz a través de un micrófono

Comentarios

Limpieza de recursos

Requisitos previos

Configuración

Recuperación de información de recursos

Reconocer la voz a partir de un archivo

Salida

Comentarios

Limpieza de recursos

Requisitos previos

Configuración del entorno

Establecimiento de variables de entorno

Reconocimiento de voz a través de un micrófono

Comentarios

Limpieza de recursos

Requisitos previos

Configuración del entorno

Establecimiento de variables de entorno

Reconocimiento de voz a través de un micrófono

Comentarios

Objective-C

Limpieza de recursos

Requisitos previos

Configuración

Recuperación de información de recursos

Reconocer la voz a partir de un archivo

Salida

Comentarios

Limpieza de recursos

Requisitos previos

Establecimiento de variables de entorno

Reconocer la voz a partir de un archivo

Limpieza de recursos

Paso siguiente

Comentarios

Recursos adicionales