Por favor, use este identificador para citar o enlazar este ítem: http://localhost:8080/xmlui/handle/123456789/682
Título : Reconocimiento de voz con Dynamic Time Warping
Autor : Giménez Ramos, María Vianella
Benítez Cabrera, Guido Martín
Palabras clave : Reconocimiento de voz
Dynamic Time Warping
Algoritmo k-means
Fecha de publicación : 2012
Editorial : Facultad Politécnica, Universidad Nacional del Este
Resumen : En los últimos años, gracias al empleo de algoritmos más eficientes y sofisticados, la tecnología de reconocimiento de voz ha experimentado notables avances, logrando manejar vocabularios cada vez más grandes con menor incidencia de errores. No obstante, todavía quedan varios defectos por corregir, capacidades a desarrollar y limitaciones que sobrepasar antes de llegar a soluciones definitivas que permitan mejorar sustancialmente la calidad y el rendimiento actual de este tipo de herramientas computacionales. Así, el presente escrito trata acerca del devenir histórico y teórico del reconocimiento de voz, a la vez que describe el desarrollo de un programa dependiente del locutor capaz de discriminar, bajo la presencia de ruidos ambientales, las 27 letras del alfabeto español. Con esto, no sólo se pretendió conseguir niveles de acierto próximos al 80%, sino también adquirir conocimientos inherentes a esta área para luego poder aplicarlos en otros estudios. A los efectos de obtener la parte teórica del trabajo, se llevó a cabo una profunda investigación bibliográfica y documental sobre el tema, consultando fuentes de información provenientes de Internet (material en línea). Con el afán de adentrarse al mundo del desarrollo de aplicaciones multimedia, exclusivamente al tratamiento del sonido, se ha visitado sitios web especializados, recopilando los fragmentos de código fuente necesarios para la construcción de la herramienta computacional propuesta. Desde un punto de vista práctico, para el desarrollo del sistema informático de reconocimiento de voz se ha usado el lenguaje de programación Java, aplicando los distintos paquetes, clases e interfaces de la biblioteca “Java Media Framework” en el procesamiento de tareas multimedia de audio, es decir, grabación, reproducción, extracción de características espectrales, etc., con la ventaja de la portabilidad, simplicidad y robustez del lenguaje empleado. Una vez finalizada la codificación de la aplicación, se procedió a adquirir los patrones acústicos de las 27 letras que conforman el diccionario de pronunciación, grabándolos en formato WAVE a 16 bits de resolución y con una frecuencia de muestreo de 44.100 Hz, constituyendo un total de 1.620 modelos (conjunto de entrenamiento), los cuales han sido almacenados en el sistema de gestión de base de datos PostgreSQL. A continuación han sido eliminados los segmentos de ruido existentes en la seña de audio para luego poder ser aplicado sobre las muestras filtradas el algoritmo k-means, quedando así representada cada letra por su correspondiente prototipo. Para comprobar la correcta funcionalidad del software, así como el grado al cual se cumplieron los objetivos planteados (esto es, si se alcanzó el rendimiento óptimo deseado esperado), se efectuaron una serie de pruebas experimentales utilizando el algoritmo de reconocimiento DTW, donde se constató el elevado nivel de confiabilidad de la aplicación desarrollada al alcanzar un aceptable porcentaje promedio de reconocimiento del 73,15%. Con respecto a los resultados obtenidos, cabe resaltar que, aunque el software desarrollado ha mostrado un satisfactorio porcentaje de acierto, todavía le falta mucho para llegar a los niveles de reconocimiento de los productos comerciales, ya que requiere de una mejora general en su funcionamiento y rendimiento. A pesar de ello, este trabajo podrá ser considerado por futuros investigadores como un excelente punto de partida rumbo a la construcción de aplicaciones de reconocimiento de voz más eficientes, sofisticadas y robustas.
URI : http://servicios.fpune.edu.py:8080/jspui/handle/123456789/682
Aparece en las colecciones: 2011 - 2012

Ficheros en este ítem:
No hay ficheros asociados a este ítem.


Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.