Reconocimiento del habla… Reconocimiento del habla (Linux, Windows y Mac) – voxforge.org
On enero 12, 2022 by adminVoxForge es un conjunto de datos del habla abierto que se creó para recoger el habla transcrita para su uso con motores de reconocimiento del habla libres y de código abierto (en Linux, Windows y Mac).
Pondremos a disposición todos los archivos de audio enviados bajo la licencia GPL, y luego los «compilaremos» en modelos acústicos para su uso con motores de reconocimiento del habla de código abierto como CMU Sphinx, ISIP, Julius (github) y HTK (nota: HTK tiene restricciones de distribución).
¿Por qué necesitamos audio del habla libre GPL?
La mayoría de los modelos acústicos utilizados por los motores de reconocimiento del habla (o de voz a texto) de «código abierto» son de código cerrado. No dan acceso al audio del habla ni a las transcripciones (es decir, al corpus del habla) utilizados para crear el modelo acústico.
La razón de esto es que los proyectos de Código Libre y Abierto (‘FOSS’) están obligados a comprar grandes corpus de voz con licencias restrictivas. Aunque hay algunos casos de pequeños corpus de habla FOSS que podrían usarse para crear modelos acústicos, la gran mayoría de los corpus (especialmente los grandes corpus más adecuados para construir buenos modelos acústicos) deben comprarse bajo licencias restrictivas.
¿Cómo puedes ayudar?
Grábate leyendo algún texto y sube tus grabaciones a VoxForge.
Otras opciones.
Deja una respuesta