Revisión de Microsoft Azure: procesamiento de voz de vanguardia

Microsoft Azure Speech to Text es una de las plataformas de reconocimiento de voz más avanzadas que existen. Como parte de la gama de productos Cognitive Speech Services de Microsoft, utiliza algoritmos de aprendizaje profundo para superar la mala calidad del sonido y puede adaptarse a diversos estilos de habla para obtener transcripciones de audio precisas. En esta revisión de Microsoft Azure Speech to Text, analizaremos de cerca este servicio.

Vale la pena señalar que Microsoft Azure Speech to Text no es una pieza tradicional de software de dictado fácil de usar. En cambio, esta es una plataforma orientada a desarrolladores diseñada para ayudar a las empresas a crear, probar y administrar sus propios productos. Si solo desea transcribir un lote de archivos de audio, las aplicaciones alternativas de voz a texto pueden ser una mejor opción. Eche un vistazo a nuestra guía del mejor software de voz a texto para conocer las mejores alternativas.

Microsoft Azure Speech to Text: planes y precios

Con Microsoft Azure Speech to Text, puede transcribir hasta cinco horas de audio de forma gratuita y crear un modelo de voz personalizado por mes. Sin embargo, con el plan gratuito, solo está disponible una única solicitud de audio simultánea a la vez, lo que significa que esta opción no es viable para la mayoría de las empresas.

La facturación del servicio de voz de Azure se divide en incrementos de un segundo.

Si desea transcribir más de un clip de voz a la vez, deberá actualizar al sistema de precios estándar de Azure. Esto cuesta $ 1 por hora de audio y admite hasta 20 solicitudes simultáneas. Se aplican cargos adicionales si necesita utilizar un modelo de audio personalizado o transcribir archivos de sonido multicanal. Estos servicios adicionales cuestan $ 1.40 y $ 2.10 por hora de audio, respectivamente.

Aunque Microsoft enumera sus precios en formato "por hora de audio", como es el estándar de la industria, la facturación en realidad se divide en incrementos de un segundo, por lo que no pagará por más tiempo de procesamiento del requerido.

Microsoft Azure Speech to Text: características

La característica clave de Azure Speech to Text es el acceso que otorga al poderoso sistema de procesamiento de lenguaje natural de Microsoft. En los últimos años, la inteligencia artificial del habla de Microsoft ha alcanzado varios hitos importantes. Esto significa que ahora puede completar tareas que antes eran imposibles para un servicio de reconocimiento de voz, como transcribir con precisión las conversaciones cruzadas durante las conversaciones de grupos pequeños.

El servicio Microsoft Azure Speech to Text se puede integrar con Office 365 para una precisión óptima.

Azure funciona con docenas de idiomas y dialectos y se puede entrenar mediante modelos de reconocimiento de voz personalizados para adaptarse mejor al estilo de habla del usuario, al ruido del entorno de fondo y al vocabulario. Si su organización ya está comprometida con el ecosistema de productos de Microsoft, puede aprovechar los datos de Office 365 del usuario para mejorar la precisión del reconocimiento de voz para términos específicos de la organización. Y, lo que es más importante, esto se puede hacer sin comprometer la seguridad de sus datos porque Speech to Text se puede ejecutar en las instalaciones.

Microsoft Azure Speech to Text: Configuración

Microsoft Azure ha sido diseñado para desarrolladores más que para consumidores. Esto significa que configurarlo es un procedimiento complicado y un tanto desafiante que es mejor dejarlo en manos de alguien con una gran cantidad de conocimientos técnicos.

Configurar Azure no es exactamente sencillo a menos que tenga experiencia en codificación.

La forma más rápida de configurar Azure es usar Azure Speech SDK en un lenguaje de programación como Java o C ++. Para ello, deberá registrarse para obtener una cuenta gratuita de Azure y crear un proyecto vacío en su entorno de desarrollo. Luego, deberá usar Microsoft Visual Studio y escribir un programa corto para inicializar el objeto SpeechRecognizer de Microsoft.

Voz a texto de Microsoft Azure: interfaz

Al igual que otras plataformas de transcripción masiva, Microsoft Azure Speech to Text está diseñado para ejecutarse como una interfaz de programación de aplicaciones (API), agregarse a los programas de Office 365 o integrarse en nuevas plataformas y servicios. Debido a esto, no existe una interfaz única de Azure Speech to Text. Lo que verá el usuario final depende de cómo se haya integrado Azure Speech to Text.

El portal en línea de Azure es intuitivo y fácil de usar.

Mientras tanto, el desarrollador que administra Azure lo hará a través del Portal Azure en línea de Microsoft, que se siente moderno y es fácil de navegar. Solo toma unos minutos ubicar la página de recursos de servicios de voz y, una vez que se ha agregado una instancia a su cuenta, las alertas de monitoreo y el uso se pueden ver en una sola ventana.

Voz a texto de Microsoft Azure: rendimiento

Como parte de nuestra revisión de Microsoft Azure Speech to Text, estábamos ansiosos por ver cómo esta plataforma manejaba el desafío de procesar grabaciones de voz sin procesar, por lo que, una vez que nuestra cuenta de Azure estuvo lista, subimos una serie de clips con diferentes niveles de ruido de fondo. . En general, Azure hizo un buen trabajo procesando nuestras muestras, ya que no vimos más que un puñado de errores durante el curso de nuestra evaluación.

Habilitar el modelo de voz personalizado de Azure mejoró nuestra precisión de transcripción.

Azure tuvo problemas un poco al procesar frases poco comunes o especializadas como nombres de equipos deportivos y términos científicos al principio, pero esto se resolvió rápidamente habilitando la opción de salida del modelo personalizado. Una vez que activamos esta opción, Azure pudo adaptarse al vocabulario y estilo de habla únicos que usamos.

Microsoft Azure Speech to Text: soporte

Para aprender a interactuar con el SDK de Azure Speech Services a través de diferentes lenguajes de programación e integrar las funciones de Azure Speech to Text en su propia plataforma, definitivamente necesitará ayuda. Afortunadamente, Microsoft ha creado un catálogo completo de materiales de capacitación para la plataforma Azure, en el que encontrará ejemplos de código y sugerencias útiles.

La sección de formación del sitio de Azure contiene muchos recursos útiles.

Además, todos los clientes de Azure obtienen soporte gratuito para la gestión de suscripciones y facturación al que se puede acceder a través de un sistema de tickets. Se puede agregar un soporte más detallado a su cuenta por una tarifa recurrente, a partir de $ 29 por mes.

Microsoft Azure Speech to Text: veredicto final

La plataforma Azure Speech to Text utiliza tecnología de vanguardia para brindar un servicio de transcripción casi perfecto. Es más adecuado para empresas que ya han invertido en el ecosistema de Microsoft Office 365 porque los modelos personalizados de voz y vocabulario se pueden generar de forma segura a partir de su archivo de documentos existente. Algunas pequeñas empresas pueden tener dificultades con Azure, ya que configurarlo correctamente requiere la atención de un desarrollador de nube calificado de Microsoft.

La competencia

Amazon Transcribe, Google Cloud Speech-to-Text y Watson Speech to Text son competidores directos de Microsoft Azure. Estas tres plataformas también son capaces de realizar transcripciones por lotes de gran volumen con precisión. Google Cloud es el único competidor cercano capaz de trabajar con más idiomas que Azure, pero es más caro, con una tarifa inicial de solo $ 0.006 por 15 segundos, en comparación con los $ 0.017 de Azure por minuto ($ 0.00425 por 15 segundos).

Para encontrar otras alternativas a Microsoft Azure Speech to Text, consulte nuestra Guía del mejor software de voz a texto.