‘Common voice’​, la importancia de la voz en código abierto

‘Common voice’​, la importancia de la voz en código abierto

La Fundación Mozilla está inmersa desde hace dos años en un interesantísimo proyecto denominado Common Voice. Se trata de una iniciativa para construir tecnologías de voz en abierto, igual que hacen RasaWit o Snips SLU. La diferencia de Common Voice es que está concebido para trabajar no solo en inglés, lengua hegemónica en este área, sino en decenas de idiomas y con el respaldo, la visión y la usabilidad de los creadores de Firefox. De hecho, a través de su web cualquiera puede entrar y empezar a locutar frases, o validar las que han grabado otros usuarios. También incluye el desarrollo de un motor de reconocimiento de voz a texto, denominado Deep Speech y publicado en GitHub.

Desarrollar asistentes de voz no son tarea fácil debido a la ingente cantidad de datos que requieren para resultar operativos, además de las tecnologías implicadas, que abarcan 5 fases: reconocimiento de voz (ASR), comprensión del lenguaje natural (NLU), gestión del diálogo (DM), generación de respuesta (RG) y síntesis de voz (TTS).

Algunas de ellas han sido investigadas al menos desde los años 50, pero no fue hasta hace muy poco, con la explosión del machine learning y la disponibilidad de grandes volúmenes de datos para entrenar esos algoritmos, cuando se ha podido disponer de aplicaciones como Google Assistant, Alexa, Siri, Cortana o Aura, vinculadas al teléfono móvil o a un home assistant. En breve se espera que Amazon dé otro impulso entre el próximo Black Friday (29 de noviembre) y las Navidades, con las ventas de sus nuevos dispositivos Echo.

Puede que Common Voice, con apenas 600 voces y 870 megas de horas validadas, esté a años luz de los proyectos mencionados arriba. Pero es interesante que esté respaldado por una gran fundación como Mozilla, que por otro lado impulsa proyectos abiertos en tecnologías punteras como IoT o realidad aumentada.

Como se indica en su web, “la mayor parte de los datos utilizados por las grandes empresas no está disponible para el gran público, y pensamos que esto reprime la innovación”. Un freno, cada vez más frecuente, que limita proyectos de vital importancia por ejemplo para personas con movilidad reducida o ceguera.

El eslógan de Mozilla es “Internet al servicio de las personas, no del beneficio”. En un mundo con un internet cada vez más cerrado y amenazado por gobiernos nacionalistas e intereses económicos, contar con proyectos de estas características es un soplo de aire fresco.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *