Google actualiza la API de Cloud Speech
La nueva API de Cloud Speech cuenta con soporte para más idiomas, marcas de tiempo a nivel de palabra y aumenta el tiempo de los archivos cargables.
La API de Google Cloud Speech, que desde su lanzamiento en 2016 ha permitido a los desarrolladores utilizar los servicios de Google para transcribir palabras habladas a texto ha recibido hoy una importante actualización.
La novedad más interesante de la API es la adición de soporte para 30 nuevos idiomas, que se suman a los 89 lenguajes que ya entendía el servicio, incluyendo múltiples variantes regionales del inglés, español y árabe. En la lista de estos nuevos idiomas encontramos el bengalí, letón y suahili. Según Google, los nuevos lenguajes incorporados a la API de Cloud Speech son hablados por alrededor de 1.000 millones de personas.
Además, Google también ha introducido algunas características principales nuevas. Entre ellos está el soporte a las marcas de tiempo a nivel de palabra, informa TechCrunch. La idea es etiquetar cada palabra con su marca de tiempo para que los desarrolladores puedan, por ejemplo, permitir fácilmente a sus usuarios oír como sonaba una palabra dada.
Esto es especialmente interesante para los servicios de transcripción y traducción supervisados por humanos que utilizan esta API para acelerar sus flujos de trabajo. “Tener la habilidad de mapear el audio al texto con marcas de tiempo reduce significativamente el tiempo transcurrido en la revisión de las transcripciones”, explica el cofundador de Happy Scribe, André Bastie, cuya compañía utiliza Cloud Speech para su servicio de transcripción de entrevistas.
También aumenta el tiempo de los archivos que los desarrolladores pueden subir al servicio, que pasa de los 80 minutos de la versión anterior hasta a 3 horas de duración. Los desarrolladores también pueden solicitar una extensión de cuota para cargar archivos aún más largos. Al igual que hasta ahora, los desarrolladores pueden obtener 60 minutos de procesamiento de audio gratuito a través de la API de voz y facturar 0,006 dólares cada 15 segundos adicionales.