Revisión de Watson Speech to Text: ¿el mejor servicio de transcripción de alto volumen?

Watson es el sistema informático de procesamiento de lenguaje natural de IBM. Impulsa la famosa supercomputadora de respuesta a preguntas, así como una serie de productos empresariales basados en inteligencia artificial, incluido Watson Speech to Text. En nuestra revisión de Watson Speech to Text, echaremos un vistazo a una de las mejores aplicaciones de voz a texto, ideal para cualquiera que quiera convertir audio en texto a escala.

La plataforma de procesamiento de voz Watson está disponible en IBM Cloud. Es una herramienta versátil y se puede utilizar en muchos contextos, incluido el dictado y la transcripción de conferencias telefónicas. Es más, a diferencia de la mayoría de las otras aplicaciones de voz a texto, está disponible como una API, lo que permite a los desarrolladores integrarla en sistemas de control por voz, entre otras cosas.

Watson Speech to Text: planes y precios

Puede utilizar Watson Speech to Text para procesar hasta 500 minutos de audio de forma gratuita al mes. Si desea convertir más que eso, deberá pagar por cada minuto de audio y la tarifa cambia según la duración del audio procesado. Los costos oscilan entre $ 0.01 y $ 0.02 por minuto, y hay un cargo adicional de $ 0.03 por minuto si necesita el modelo de lenguaje personalizado de IBM. También están disponibles los planes Watson premium con cotización única, que otorgan acceso a funciones mejoradas de privacidad de datos y garantías de tiempo de actividad.

El precio del servicio de voz a texto de Watson se basa en el volumen de contenido que necesita transcribir.

También puede acceder al sistema Watson Speech to Text a través de una suscripción de IBM Cloud de uso general. El procesamiento del lenguaje natural es solo una aplicación en una amplia gama de servicios de inteligencia artificial que puede obtener a través de IBM Cloud, por lo que esta es una buena opción para cualquier organización que necesite acceso a transferencias de datos de alta velocidad, chatbots o herramientas de conversión de texto a voz.

Watson Speech to Text: características

Gracias a la integración de API flexible y otras herramientas de IBM preconstruidas, el servicio de reconocimiento de voz de Watson va mucho más allá de la transcripción básica. Si desea utilizarlo en un contexto de servicio al cliente, por ejemplo, Watson Assistant se puede configurar para procesar preguntas en lenguaje natural directamente o responder consultas por teléfono.

En Watson, IBM ha creado una plataforma de procesamiento de lenguaje natural rica en funciones.

Watson trabaja con audio en vivo en 11 idiomas y puede importar sonidos en una variedad de formatos pregrabados. Al transmitir, el soporte de diagnóstico en tiempo real significa que Watson puede solicitar a los usuarios que se acerquen a su micrófono o cambien su entorno. También es impresionante el hecho de que Watson puede distinguir entre diferentes hablantes en una conversación compartida gracias a Speaker Diarization, una función que aún se encuentra en fase de pruebas beta.

Watson Speech to Text: configuración

Para utilizar Watson, lo primero que debe hacer es crear una cuenta de IBM Bluemix. El registro es gratuito y sencillo, y solo requiere una dirección de correo electrónico y una contraseña. Una vez que haya iniciado sesión, debe agregar una provisión en su cuenta para el servicio Speech to Text. En esta etapa, recibirá un par de credenciales que debe guardar en sus propios registros.

Es necesario registrarse para obtener una cuenta de IBM Bluemix para obtener acceso al conjunto completo de funciones de Watson.

Una vez hecho esto, las cosas se vuelven mucho más complejas. Para acceder a Watson, deberá agregar esas credenciales a un lote de código del localizador uniforme de recursos del cliente (cURL) y luego ejecutarlo en su máquina. Para saber exactamente a qué comando llamar, consulte esta práctica guía. Alternativamente, si solo desea ver qué tan bien funciona el sistema Watson sin tener que pasar por todos esos obstáculos, puede probarlo en el sitio de demostración de IBM.

Watson Speech to Text: interfaz

A diferencia de las aplicaciones de voz a texto orientadas al consumidor, los servicios de Watson están diseñados para ser accedidos a través de API y código incrustado en otros sistemas. Por esta razón, no existe una "interfaz" real de Watson. En cambio, se puede acceder a Watson a través de tres protocolos de Internet diferentes. Estos son WebSockets, REST API y Watson Developer Cloud.

Watson Speech to Text se puede gestionar a través del sistema Watson Developer Cloud.

Para controlar Watson, deberá utilizar una herramienta de línea de comandos que se conecte a la nube de IBM a través de una de esas tres rutas. La interfaz que ve el usuario final que interactúa con Watson deberá crearla alguien de su equipo de desarrollo por separado.

Watson Speech to Text: rendimiento

En general, nos impresionó la forma en que esta plataforma de procesamiento de lenguaje natural maneja el habla real. Utilizamos Watson para transcribir clips que grabamos en una variedad de entornos desafiantes, así como fragmentos de discursos famosos pronunciados en varios de los 11 idiomas admitidos por Watson.

Descubrimos que Watson se desempeñó bien con discursos pregrabados.

Aunque los errores se hicieron más frecuentes en los clips con mucho ruido de fondo, en general, Watson produjo resultados increíblemente precisos. Estimamos a partir de nuestras pruebas que los errores espontáneos ocurrieron solo una vez cada 150 palabras en promedio. Sin embargo, quedó claro por qué la función de Diarización de locutores de Watson permanece en las pruebas BETA ya que, varias veces durante nuestra evaluación, una voz se etiquetó erróneamente como oradores separados.

Watson Speech to Text: soporte

El centro de recursos de IBM ofrece mucha documentación para comprender mejor cómo aplicar Watson a su caso de uso particular. También vale la pena hacer uso de las integraciones de API y los SDK creados por la comunidad de desarrolladores de Watson y publicados en GitHub.

La página de GitHub de la API de Watson es una buena fuente de soporte para el servicio Watson Speech to Text.

Si no encuentra la solución a su problema allí, puede comunicarse directamente con IBM abriendo un ticket de soporte o comunicándose con ellos por teléfono. Siempre que haya optado por uno de los paquetes premium de Watson, su uso de Watson estará protegido por un acuerdo de tiempo de actividad de nivel de servicio.

Watson Speech to Text: veredicto final

Si su organización tiene el conocimiento y los recursos para integrar correctamente la plataforma IBM Watson Speech to Text en su sistema, se beneficiará de funciones avanzadas como diagnósticos del entorno de sonido en tiempo real y resultados de transcripción provisionales. Sin embargo, las pequeñas empresas y organizaciones lucharán con el desafío técnico de configurar Watson correctamente.

La competencia

El servicio IBM Watson Speech-to-Text es un competidor directo de los servicios de transcripción masiva Google Cloud Speech-to-Text y Amazon Transcribe. Ambos son significativamente más baratos que Watson, con la transcripción de Google Cloud, por ejemplo, a partir de $ 0.006 por minuto. Los tres servicios comparten funciones similares, como vocabulario personalizado, pero una característica que falta mucho en IBM Watson pero que está disponible con ambos competidores es el reconocimiento automático de puntuación.

¿Está buscando otra solución de spoeech a texto? Consulte nuestra guía sobre el mejor software de conversión de voz a texto.