Revisión de escritura por voz de Google

Es cada vez más común usar la voz para controlar nuestros hogares y computadoras. Cuando hace solo una década pedirle a Alexa o Google Home que controlaran las luces, o pedir un producto de Internet, podría haber parecido inusual, pero ahora es la norma.

Una de las empresas que más ha invertido en este tipo de tecnología es Google, permitiendo que sus dispositivos Google Home y sus sistemas Android acepten comandos verbales, e incluso reconozcan al hablante.

Hoy veremos cómo vincularon esta tecnología a su plataforma Google Docs y consideraremos si es una alternativa viable a otras soluciones comerciales de voz a texto.

Precios

El software está incluido en Google Docs, por lo que es intrínsecamente gratuito. Todo lo que necesita para usarlo es una cuenta de Google y un dispositivo móvil o una computadora con micrófono. Es otra fuente de datos que Google puede recolectar, pero es parte del precio de "gratis" en estos días.

Diseño

Es posible usar la voz para ingresar datos en Google Docs, la función se llama "Escritura por voz" y se puede encontrar en el menú Herramientas en un documento de Google o en Presentaciones de Google. También se puede activar en cualquier ubicación usando la tecla de acceso rápido Ctrl-Shift-S.

Cuando lo activó por primera vez, se le pedirá que autorice el acceso al micrófono para docs.google.com.

Una vez que haya aceptado que aparezca un pequeño cuadro con el logotipo de un micrófono en él, puede hacer clic para activar la entrada de voz. Esto luego se reemplaza con un símbolo de micrófono rojo junto al documento para indicar que el sistema está en modo de escucha.

Antes de activar la escritura por voz en el panel de control, puede elegir un idioma de un menú y, como se trata de Google, hay muchas opciones. Y también puede hacer clic en un signo de interrogación y recibir ayuda sobre cómo usar el sistema.

A medida que avanzan estos sistemas, esta es una solución altamente condensada.

Google procesará lo que usted diga lo mejor que pueda, y si el sistema no está seguro exactamente de una palabra, la subrayará en gris. A continuación, se puede hacer clic en estas palabras "sospechosas" y el sistema puede proporcionar algunas alternativas.

Pero puede moverse rápidamente por un documento y solucionar problemas manualmente o colocar el cursor y darle otra puñalada al Dictado por voz.

Si necesita hablar con otra persona mientras trabaja, puede pedirle a Google que deje de escuchar y luego reanude la conversación.

Pero para obtener la capacidad completa de esta solución, existe una larga lista de comandos que deben memorizarse y que pueden copiar, pegar, moverse por el documento, insertar tablas y una miríada de otras funciones.

Y puede insertar puntuación, formatear el documento e incluso insertar hipervínculos.

Pero, para aprovecharlo al máximo, se supone que puede recordar los comandos o tener la ayuda abierta para refrescar su memoria.

Una lista está disponible rápidamente diciendo "Lista de comandos de voz", convenientemente.

Idiomas

Donde muchas soluciones de voz a texto solo cubren una pequeña cantidad de idiomas, la de Google tiene una cantidad significativa. La lista definitiva actual es:

Afrikáans, amárico, árabe, árabe (Argelia), árabe (Bahréin), árabe (Egipto), árabe (Israel), árabe (Jordania), árabe (Kuwait), árabe (Líbano), árabe (Marruecos), árabe (Omán) , Árabe (Palestina), árabe (Qatar), árabe (Arabia Saudita), árabe (Túnez), árabe (Emiratos Árabes Unidos), armenio, azerbaiyano, bahasa indonesio, vasco, bengalí (Bangladesh), bengalí (India), búlgaro, Catalán, chino (simplificado), chino (tradicional), chino (Hong Kong), croata, checo, danés, holandés, inglés (Australia), inglés (Canadá), inglés (Ghana), inglés (India), inglés (Irlanda) , Inglés (Kenia), Inglés (Nueva Zelanda), Inglés (Nigeria), Inglés (Filipinas), Inglés (Sudáfrica), Inglés (Tanzania), Inglés (Reino Unido), Inglés (EE.UU.), Farsi, Filipino, Finlandés, Francés , Gallego, georgiano, alemán, griego, gujarati, hebreo, hindi, húngaro, islandés, italiano, italiano (Italia), italiano (Suiza), japonés, javanés, canarés, jemer, coreano, laosiano, letón, lituano, malayalam, Malasia n, marathi, nepalí, noruego, polaco, portugués (Brasil), portugués (Portugal), rumano, ruso, eslovaco, esloveno, serbio, cingalés, español, español (Argentina), español (Bolivia), español (Chile), español (Colombia), español (Costa Rica), español (Ecuador), español (El Salvador), español (España), español (EE.UU.), español (Guatemala), español (Honduras), español (América Latina), español (México ), Español (Nicaragua), español (Panamá), español (Paraguay), español (Perú), español (Puerto Rico), español (Uruguay), español (Venezuela), sundanés, suajili (Kenia), suajili (Tanzania), Sueco, tamil (India), tamil (Malasia), tamil (Singapur), tamil (Sri Lanka), tailandés, turco, ucraniano, urdu (India), urdu (Pakistán), vietnamita y zulú.

Eso es 119 idiomas, incluidas 13 formas árabes, 19 variaciones en español, 13 dialectos del inglés e incluso cuatro sabores de tamil.

Se incluyen idiomas que rara vez son compatibles con el software de dictado, como el zulú y el islandés, debido al número relativamente pequeño de hablantes.

La cobertura de idiomas es probablemente la mayor fortaleza del dictado por voz de Google.

Grabaciones

Si esta solución tiene una debilidad, es que no puede procesar fácilmente las grabaciones.

Si bien no es imposible hacer esto, requiere parchear el sistema de audio de la computadora para que tome la salida destinada a los parlantes y la dirija como si viniera del micrófono. Pero hacer esto no le permite diferenciar entre diferentes personas en las grabaciones y podría interferir con la inteligencia artificial que utiliza Google para mejorar la precisión verbal al aprender cómo habla.

Si desea transcribir podcasts o entrevistas grabadas, le recomendamos que utilice algo más, ya que esta herramienta no está diseñada para ese propósito.

Precisión

Es difícil juzgar la precisión de un sistema de procesamiento de voz cuando no puede enviarle las mismas grabaciones que otros productos han convertido. Y cualquiera que use Alexa o Google Home de manera regular sabrá que ocasionalmente no nos entenderá, principalmente debido a sonidos extraños o al hablar inconsistente.

Dicho esto, en las pruebas activas que hicimos, esta herramienta generalmente obtuvo la mayoría de las palabras correctas, o la palabra correcta estuvo disponible rápidamente en el menú de palabras sospechosas.

Para obtener los mejores resultados se necesita cierto control que se exhiba en la velocidad, volumen y tono del habla, algo que sin duda viene con la práctica. Además, ser capaz de recordar todos los comandos especiales puede reducir de manera crítica la cantidad de ediciones posteriores a la grabación que se requieren.

Dependiendo de sus expectativas, la precisión aquí es aceptable. Hay una coherencia en sus interpretaciones que mantuvo durante nuestras pruebas. No podemos predecir qué tan bien funciona para usted. Pero como es gratis, no le costará nada más que su tiempo para determinarlo.

Seguridad

Como se trata de Google, el modelo de seguridad es el mismo que controla el acceso a todas las cuentas de Google. Eso va desde la protección con contraseña simple hasta una metodología más razonable hasta la autenticación de dos factores (TFA).

Dada la cantidad de ladrones de identidad, quienes usan Google sin TFA corren un riesgo significativo de que sus cuentas se vean comprometidas.

Incluso esta opción de seguridad tiene sus límites, pero es mejor que una simple contraseña.

Para aquellos que no son lo suficientemente paranoicos, les recomendamos encarecidamente que vayan a https://myactivity.google.com/myactivity

Y verá lo que Google recopila sobre usted a diario, y eso podría incluir grabaciones de sus comandos de voz.

Veredicto final

Esta podría ser una revisión más larga si este software ofreciera más funciones, pero no es así.

A medida que avanzan las soluciones de voz a texto, esta no es complicada, pero tiene la funcionalidad suficiente para ser realmente útil.

Otras soluciones están diseñadas para manejar la transcripción de conversaciones entre varias personas, donde esto fue diseñado para manejar una sola persona que está hablando de una manera controlada y precisa.

Lo que se supone al usarlo es que está feliz de usar Google y Google Docs, incluso si ese no es el destino final del texto que ingresa.

No es nada complicado copiar un dictado pegado de Google Docs en otra aplicación, y tendrá una copia en la nube como referencia en caso de que termine necesitando una.

Es comprensible que algunos usuarios tengan problemas para alimentar el apetito insaciable de Google por los datos de los usuarios, y este mecanismo es otra fuente de datos más.

Si te sientes así, no usarás el dictado por voz de Google ni nada de Google.

Para aquellos que estén dispuestos a aceptar cuánto podría saber Google sobre ellos, entonces la solución de dictado de voz en Google Docs es lo suficientemente capaz para uso general, especialmente si solo necesita esta funcionalidad ocasionalmente.

Articulos interesantes...