Revisión del software de transcripción Sonix.ai

Cada herramienta que transcribe se dirige a un nicho específico y Sonix ha elegido aquellas que graban reuniones o presentaciones y luego necesitan una versión mecanografiada para buscar o difundir.

Por lo tanto, podría ser igualmente útil para un estudiante que para un ejecutivo, entregando transcripciones que se pueden indexar fácilmente para referencia futura.

Pero para tener éxito en estas tareas, el software debe ser preciso y asequible.
¿Es Sonix.ai esa herramienta y puede un servicio en línea competir con una aplicación instalada?

  • ¿Quieres probar Sonix.ai? Echa un vistazo a la página web aquí

Planes y precios

Como ocurre con muchos servicios de transcripción, el modelo de costos de Sonix se basa en el tiempo. Específicamente, la duración de cualquier grabación que suba al servicio para procesarla y el costo de ese recurso es de $ 10 por hora si usa su servicio estándar de pago por uso.

El costo por hora se puede reducir a $ 5 si se suscribe al servicio de suscripción Premium por $ 22 por mes para cada usuario. Y, los descuentos por volumen están disponibles para aquellas empresas que requieran más de 100 horas por mes transcritas.

El plan Estándar tiene las funciones más básicas y Premium agrega otras adicionales, como acceso multiusuario y uso compartido de equipos. Y Enterprise tiene todo lo que ofrece Premium con mucha administración adicional y un modelo de soporte mejorado.

A medida que avanzan los servicios de transcripción, Sonix es uno de los más caros, y ciertamente no es algo que la mayoría de los estudiantes o usuarios domésticos puedan pagar razonablemente.

Diseño

El sitio my.sonix.ai utiliza un diseño excepcionalmente limpio y crear una cuenta es gratis.

En el momento de redactar este artículo, se trata exclusivamente de un servicio basado en la web, y Sonix no tiene una aplicación móvil para capturar y enviar para procesar grabaciones de audio.

Sin embargo, como veremos más adelante, existen formas sencillas de solucionar este problema que resuelven de alguna manera la falta de una aplicación móvil.

El punto de partida para cualquier trabajo de transcripción es el panel de Sonix.ai, donde puede ver el audio que ya se ha transcrito y agregar otros nuevos para procesar.

Debido a que este sistema fue diseñado para múltiples usuarios, incluye un sistema de carpetas virtuales para organizar las transcripciones de la forma que se considere adecuada.

Al hacer clic en "cargar", el usuario accede a una página en la que se pueden colocar varios archivos en el sistema y, si la cuenta tiene crédito suficiente, se pueden procesar.

Se admiten todos los formatos de archivo de audio estándar, incluidos wav, mp3, mp4a, aiff, acc, ogg y wma, y ​​también puede cargar algunas estructuras de empaquetado de video. El tamaño máximo del archivo es de 4 GB, por lo que antes de cargar un archivo de video de gran resolución de 4K, le recomendamos que utilice alguna otra herramienta para dividir el audio y hacer que la carga sea más rápida.

Una buena forma de acelerar la carga es utilizar una instalación de almacenamiento en la nube como Google Drive, One Drive, Box o Dropbox y vincularlo directamente a la cuenta. También puede enviar un correo electrónico al sistema mediante Gmail, como un medio para crear un flujo de trabajo más elegante que colocar archivos en una página web.

Esta automatización se proporciona a través de Zapier, lo que permite una integración mucho más amplia si la empresa que la utiliza ha invertido en esa tecnología para conectar sus procesos comerciales.

Otro buen detalle es que, junto con el archivo de audio o video, puede incluir la transcripción existente, como un medio para completar más rápidamente el proceso y mejorar la precisión.

Otro buen detalle es que, junto con el archivo de audio o video, puede incluir la transcripción existente, como un medio para completar más rápidamente el proceso y mejorar la precisión.

Debido a la naturaleza del procesamiento basado en la nube, juzgar qué tan rápido o lento podría ser el procesamiento es imposible, pero Sonix.ai es relativamente rápido en nuestra experiencia. Por lo general, se tarda entre un 10% y un 20% del tiempo en transcribir mientras dura la grabación. Por lo tanto, completar una grabación de 10 minutos suele tardar menos de 2 minutos.

No es necesario que siga el procesamiento, ya que el sistema le enviará una notificación por correo electrónico cuando el trabajo esté terminado, junto con un enlace a la nueva transcripción.

Una vez que se procesa el archivo, puede abrirlo dentro de una página de edición para revisar los resultados, y también exportar el texto en una amplia gama de formatos útiles, incluidos los definidos como subtítulos por algunas aplicaciones.

El número de idiomas y dialectos admitidos por el sistema es de 36, y eso incluye varios países de habla inglesa, francesa, cantonés, mandarín, portugués y español, junto con todos los idiomas comunes de Europa occidental y oriental, junto con algunos asiáticos y árabe.

Grabaciones

Junto con el trabajo que se llevó a cabo en la IA para interpretar los ruidos que hacen los humanos, probablemente la página de grabaciones representa un esfuerzo de codificación significativo aquí.

Aquí, tanto el audio como su transcripción asociada se pueden comparar y mejorar manualmente con detalles de los cambios de los oradores y correcciones de malas interpretaciones.

Para cualquiera que esté trabajando en una transcripción para pulir el texto, esta página proporciona la ubicación de la cara del carbón. Tiene sentido que se haya realizado algún esfuerzo en esta parte, ya que es muy fácil de usar y seguir.

En un intento de indicar al usuario dónde podría haber problemas, Sonix.ai codificará con colores el contenido para resaltar las secciones en las que tiene menos confianza. Esta función puede ser útil, aunque Sonix.ai puede cometer errores incluso en aquellas partes en las que considera que la transcripción tiene un estado "Muy seguro".

Los mejores aspectos de esta página son cómo se sincronizan la reproducción de audio y el texto para que al colocar el cursor en el texto se mueva la posición de reproducción a la misma sección.

Además de la edición simple, también es posible resaltar secciones en varios estilos y hacer notas para acompañar la transcripción.

También puede modificar el código de tiempo, especialmente útil si la grabación comienza con una pausa larga o un preámbulo no deseado.

Precisión

Sonix describe Sonix.ai como "El mejor software de transcripción automatizado con tecnología de IA de vanguardia".

Dadas nuestras pruebas, describiríamos este producto como muy dependiente de la calidad de la grabación y de muchos otros factores que no se pueden controlar fácilmente.

Al procesar nuestras grabaciones de discursos históricos clásicos, fue muy difícil con algunos oradores, incluso si nos sonaban claros.

Estos resultados contrastaron notablemente con algunas grabaciones más simultáneas, en las que la precisión era aceptable pero difícilmente estelar.

Concluimos que el enfoque adoptado por Sonix hace varias suposiciones que pueden funcionar o no, dependiendo del hablante y la calidad de la grabación.

Lo fascinante es que el servicio codificará con colores su transcripción en función de la confianza que tenga en lo que se dice, y este autoanálisis es muy revelador.

En algunas circunstancias, identificará correctamente que una sección podría ser sospechosa, pero en otras partes, confía en la sección que transcribió completamente mal.

Algunos problemas comunes parecen ponerlo en una bola curva, y uno de ellos es la gente que no habla una prosa gramaticalmente perfecta. En un esfuerzo por hacer que su discurso sea más directo, eliminaron algunas palabras de sus oraciones, creando un estilo más dramático. Cuando Sonix las transcribe, parece decidido a volver a agregar esas palabras para que se ajusten a su modelo gramatical interno, en lugar de lo que realmente se dijo.

La transcripción se lee mejor como documento, pero no es realmente representativa de lo que se dijo.

Sonix es ciertamente mejor cuando la calidad de la grabación y la claridad del altavoz son altas, como demostramos con un pequeño clip de Stephen Fry leyendo Harry Potter. Pero no es posible tener siempre tal control sobre la calidad del sonido y aún así cometió errores con esa prueba.

Otra área problemática son los nombres formales y las palabras técnicas o abreviaturas. Estos se pueden abordar agregándolos al diccionario personalizado, pero esto requiere trabajo para que el sistema pueda darse cuenta mejor cuando se utilizan nombres o acrónimos.

Para aquellos que necesitan una transcripción perfecta de palabras, Sonix tiene una selección de transcriptores profesionales asociados que pueden trabajar en una grabación y abordar esos problemas, pero esto frustra de alguna manera el propósito de la transcripción procesada.

Seguridad

El enfoque de la seguridad de Sonix.ai son los servidores donde se procesa el audio y se llevan a cabo las transcripciones.

Todo el tráfico se cifra mediante TLS (Transport Layer Security) y una vez que los archivos están en el servidor que está protegido por múltiples capas de firewall, la protección contra intrusiones y todos los datos están protegidos por cifrado AES-256 del lado del servidor. Y la empresa promete que los empleados no tendrán acceso a grabaciones o transcripciones a menos que se les otorgue un permiso explícito para que las tengan.

El problema crítico con este enfoque es que un simple inicio de sesión y una contraseña pueden eludirlo todo. Sonix.ai no tiene autenticación de dos factores y no tiene un registro de fácil acceso de quién accede a los archivos y cuándo.

Desde el punto de vista de la seguridad, esto bien podría considerarse una dependencia excesiva de la integridad de quienes utilizan el sistema para no compartir grabaciones con otras personas ajenas al negocio o retener los archivos potencialmente confidenciales cuando abandonan la empresa.

En resumen, la seguridad debe ser mejor y el seguimiento o la actividad de los usuarios debe tener una mayor prioridad.

Veredicto final

Teniendo en cuenta el costo relativamente alto, esperábamos que Sonix se desempeñara mejor de lo que lo hizo.

Quizás tuvimos mala suerte con nuestras elecciones de cosas para transcodificar, pero aún así parecía cometer una cantidad desmesurada de errores.

En el lado positivo de esta ecuación, es rápido y es un sistema muy fácil de usar, aunque recomendamos ejecutar algunas grabaciones de ejemplo a través de esta solución antes de comprometerse con una suscripción.

El mayor problema con Sonix es el alto costo, e incluso si es la herramienta adecuada para sus necesidades particulares, existen medios más baratos para convertir el audio en texto en otros lugares.

Articulos interesantes...