La API de Google Cloud Speech, que desde su lanzamiento en 2016 ha permitido a los desarrolladores utilizar los servicios de Google para transcribir palabras habladas a texto ha recibido hoy una importante actualización.
La novedad más interesante de la API es la adición de soporte para 30 nuevos idiomas, que se suman a los 89 lenguajes que ya entendía el servicio, incluyendo múltiples variantes regionales del inglés, español y árabe. En la lista de estos nuevos idiomas encontramos el bengalí, letón y suahili. Según Google, los nuevos lenguajes incorporados a la API de Cloud Speech son hablados por alrededor de 1.000 millones de personas.
Además, Google también ha introducido algunas características principales nuevas. Entre ellos está el soporte a las marcas de tiempo a nivel de palabra, informa TechCrunch. La idea es etiquetar cada palabra con su marca de tiempo para que los desarrolladores puedan, por ejemplo, permitir fácilmente a sus usuarios oír como sonaba una palabra dada.
Esto es especialmente interesante para los servicios de transcripción y traducción supervisados por humanos que utilizan esta API para acelerar sus flujos de trabajo. “Tener la habilidad de mapear el audio al texto con marcas de tiempo reduce significativamente el tiempo transcurrido en la revisión de las transcripciones”, explica el cofundador de Happy Scribe, André Bastie, cuya compañía utiliza Cloud Speech para su servicio de transcripción de entrevistas.
También aumenta el tiempo de los archivos que los desarrolladores pueden subir al servicio, que pasa de los 80 minutos de la versión anterior hasta a 3 horas de duración. Los desarrolladores también pueden solicitar una extensión de cuota para cargar archivos aún más largos. Al igual que hasta ahora, los desarrolladores pueden obtener 60 minutos de procesamiento de audio gratuito a través de la API de voz y facturar 0,006 dólares cada 15 segundos adicionales.
Este cambio refleja los avances que se producen a nivel de infraestructura TI y el…
El evento espera reunir a 17.000 directivos, que podrán escuchar a medio centenar expertos en…
Como resultado de esta operación, ampliará sus servicios en el "bronze layer" del ciclo de…
Durante el segundo trimestre de su año fiscal 2025 acumuló 1.660 millones de dólares, la…
También incluye un SDK open source para potencia el desarrollo de aplicaciones y agentes, especialmente…
Los ciberdelincuentes recurren a ofertas que no son ciertas, tarjetas regalo y sorteos para robar…