Sistemas de análisis acústico y de reconocimiento automático en habla espontánea
Fecha
2010-12Autor
Gurlekian, Jorge A.
Evin, Diego
Torres, Humberto
Renato, Alejandro
Metadatos
Mostrar el registro completo del ítemResumen
En este trabajo se presentan dos sistemas de análisis acústico del habla con aplicaciones a la descripción de segmentos de discurso espontáneo y un sistema de reconocimiento automático de habla espontánea orientado a la detección de palabras. El primer sistema de análisis presenta detalladamente todos los rasgos instintivos segmentales y suprasegmentales del habla en forma simultánea asociados a la frecuencia, energía y duración. El segundo presenta automáticamente los parámetros físicos asociados a la entonación en una superficie que cuantifica el campo vocal del hablante y mide el rango vocal y dinámico en el discurso hablado. Se presenta un histograma de la frecuencia fundamental útil para comparar las tendencias entonativas de sesión a sesión. Finalmente se ha desarrollado una herramienta de reconocimiento con modelos acústicos para el español hablado en la Argentina. El mismo transcribe los sonidos grabados a texto y posibilita la aplicación de otras herramientas para el procesamiento de lenguaje natural. In this paper two acoustic speech analysis systems are presented with applications to the description of spontaneous speech segments and a system of automatic spontaneous speech recognition oriented to word detection. The first analysis system presents in detail all segment and supra-segment instinct speech features simultaneously and associated frequency, power and duration. The second automatically displays the physical parameters associated to intonation in a surface that quantifies the vocal field of the speaker and measures the vocal and dynamic range in spoken discourse.
A histogram of the fundamental frequency proves useful to compare intonation tendencies from session to session. Finally a recognition tool with acoustic models was developed for Spanish spoken in Argentina. It transcribes the recorded text sounds and enables the application of other tools for natural language processing.