Reconocimiento de Dígitos Hablados
(grabación de voz)
Este es el mismo applet que el anterior, pero permite la grabación de voz por parte del usuario. Es necesario un micrófono correctamente configurado para realizar la grabación. Salvo algunos detalles comentados abajo, la interfaz es la misma que la de la aplicación convencional.
El reconocimiento de los dígitos no sólo depende del tono del hablante, que debería manejar relativamente bien la red debido a su capacidad de generalización; sino que también depende de detalles técnicos en su captura, como puede ser la tarjeta de sonido o el micrófono que se utilice. Por ello se avisa que el comportamiento de la red probablemente no sea perfecto.
EJECUCIÓN
Tenemos tres nuevos botones en la interfaz de ejecución para poder grabar nuestra propia voz y ver cómo responde la red ante ella:
Inicia la grabación de voz. Todo lo que capte el micrófono quedará almacenado por la aplicación.
Para la grabación de voz. Bloquea la entrada del micrófono, cerrando la secuencia de voz grabada.
Analiza la última grabación realizada, realizando todos los pasos requeridos y ejecutando después la red neuronal
Además, se mantiene la opción para ejecutar ejemplos de prueba, mediante el botón Hablar
La reproducción de una grabación de voz genera dos gráficas en pantalla, además del resultado en el reconocimiento del número. La primera representa a la función de onda, y tiene el siguiente aspecto:
Forma de onda de "seis"
La línea roja indica la amplitud de la función de onda en cada punto de la grabación. Por lo general, allá donde permanezca horizontal será silencio, mientras que las zonas alteradas corresponderán al dígito pronunciado o a ruido ambiente.
Para distinguir el dígito de la palabra, usamos un análisis energético y un análisis de cruces por cero.
La línea naranja indica la energía de la onda, y es proporcional a la amplitud
La línea azul indica la densidad de cruces por cero en nuestra palabra. En este ejemplo vemos que apenas hay cruces en las zonas de silencio, aunque se mantiene dudosa en los límites. En ambientes con ruido la función de cruces por cero puede tener un valor alto incluso en zonas de silencio, complicando la limitación de la palabra.
Hay letras cuya energía es muy baja y pueden hacer complicada la limitación de la palabra mediante el análisis energético. Por ello se realiza este análisis de cruces por cero. Las oclusivas (t,k) y las fricativas (f,s) son algunos ejemplos de ello. En la imagen anterior, se puede observar que tanto la "s" inicial como final de "seis" tienen poca energía (sobre todo la final) pero mantienen una densidad de cruces muy alta.
Por último, las barras verdes verticales indican el trozo de onda que se va a considerar como palabra.
El segundo gráfico es el espectrograma. Aunque las formas de onda son bastante parecidas, el espectrograma variará bastante según el número, permitiéndonos distinguir cada dígito.
Espectrograma de "seis"