Eventos destacados

« 11 2017 »
LunMarMiéJueVieSábDom
12345
6789101112
13141516171819
20212223242526
27282930

Sistemas de Diálogo Persona-Máquina (SDPM-2 / 2016-17) **No se ofrece**

Documento electrónico: 
Créditos Totales: 
4.0
Fechas de impartición: 
Segundo semestre
Tipo de asignatura: 
Itinerario I4
Objetivos docentes: 

El presente curso se dedica al estudio de los distintos módulos que intervienen en un sistema de interacción o de diálogo persona-máquina. Partiendo de una introducción de los sistemas de diálogo y su problemática, se pasan a abordar los módulos fundamentales que lo componen, describiendo su funcionamiento, las alternativas de investigación más adoptadas para conseguir un sistema óptimo y el rendimiento y la problemática de cada uno.
En cada uno de los módulos, se partirá de un nivel básico y se profundizará hasta describir los algoritmos más avanzados y las técnicas con las que se consiguen los sistemas más robustos y fiables.

Programa: 

Se van a abordar los temas siguientes:
1. Arquitectura del sistema de diálogo
2. Fundamentos de producción y percepción de Habla
3. Síntesis y generación de respuesta
4. Reconocimiento de habla: parametrización y cuantificación
5. Reconocimiento de habla: modelos ocultos de Markov
6. Reconocimiento de habla conectada
7. Adaptación
8. Modelos de lenguaje
9. Identificación de locutor e identificación de idioma
10. Comprensión y traducción de habla
11. Reconocimiento y síntesis de emociones e interaccción multimodal
12. Síntesis HTS
13. Metodologías de diseño y modelado de usuario
14. Evaluación de sistemas de diálogo

Evaluación: 

Los alumnos completan el curso con un trabajo final de carácter individual que ha de ser presentado públicamente en inglés como parte de las actividades para adquirir competencias transversales de documentación, comunicación y publicación.
La memoria debe presentarse en el formato típico para los artículos de conferencias IEEE (http://www.ieee.org/conferences_events/conferences/publishing/templates....) con objeto de fomentar en el alumno, no sólo la lectura e interpretación de documentos científicos y técnicos, sino también su correcta redacción.
Este trabajo final, deberá ser de carácter eminentemente práctico, y en él debe aplicarse algu-na de las técnicas descritas durante el curso, preferiblemente, a un problema que pueda estar relacionado con la actividad investigadora o profesional del alumno.
La memoria escrita contará un 70% en la evaluación final. No obstante, el profesor obser-vará también la habilidad de los alumnos para comunicar de manera efectiva y concisa in-formación técnica, conocimientos, justificaciones, etc., y para responder a las preguntas que les formule. Esta exposición oral supondrá el 30% restante de la nota

Profesorado
Más Información
Código de la asignatura: 
93000720
Número del curso al que pertenece dentro de la titulación: 
1
Centro de impartición: 
ETSI Telecomunicación
Curso académico de impartición: 
2015-2016
Bibliografía: 

El material docente consiste fundamentalmente en:
1. Transparencias empleadas en las clases impartidas.
2. Bibliografía recomendada para cada uno de los diferentes temas.
Todo el material se hace accesible a través de la página Web de la asignatura con suficiente antelación a la impartición de las clases teóricas correspondientes. De este modo, los alumnos disponen en todo momento del material oportuno para un fácil seguimiento de las clases.
Se recomienda la siguiente bibliografía general:
 Hidden Markov Models for Speech Recognition. X.D.Huang, J. Ariki, M. A. Jack. Edinburgh University Press, 1990.
 Spoken Language Processing, Huang, X., Acero, A., Hon, H.W. Ed. Prentice Hall, New Jersey, 2001.
Para Parametrización:
 Comparison of Parametric Representation for Monolyllabic Word Recognition in Contiuously Spoken Sentences. S. B. Davis y P. Mermelstein. IEEE Transac-tions on Acoustics Speech and Signal Processing, Vol. ASSP-28, nº 4, pp. 357-366, Agosto 1980.
 Speaker-Independent Isolated Word Recognition Using Dynamic Features of Speech Spectrum. S. Furui. IEEE Transactions on Acoustics Speech and Signal Processing, Vol. ASSP-34, n. 1. Febrero 1986.
 Perceptual linear predictive (PLP) analysis of speech. Hermansky, H. 1990. JASA, pp. 1738-1752.
 Rasta-PLP speech analysis technique. Hermansky, H., N. Morgan, A. Bayya, P. Kohn. IEEE ICASSP 1992, pp. 121-124.
 Towards handling the acoustic environment in spoken language processing. Hermansky, H., N. Morgan. ICSLP 1992, pp. 85-88.
 RASTA Processing of Speech. Hermansky, H., N. Morgan. IEEE Trans. on Speech and Audio Processing 1994, Vol. 2, nº 4, pp. 578-589.
Para Cuantificación vectorial:
 “Vector Quantization”. R.M.Gray. IEEE ASSP Magazine, April 1984.
 An algorithm for vector quantization design. Yoseph Linde, Andres Buzo, and Robert M. Gray. IEEE Transactions on Communications, 28(1):84--95, Janu-ary 1980.
 Efficient vector quantization using an `N-path Binary Tree Search Algorithm. San-Segundo, R., R. de Córdoba, J. Ferreiros, A. Gallardo, J. Colás, J. Pastor, Y. López. EUROSPEECH 1999, pp. 93-96.
Para Modelos de Markov:
 Isolated and Connected Word Recognition, Theory and selected applications. L. R. Rabiner. IEEE Trans on Communications, Vol Com 29, n,. , 1981
 An Introduction to Hidden Markov Models. L. R. Rabiner y B.H. Huang. IEEE ASSP Magazine, Enero 1986.
 A tutorial on Hidden Markov Models and Selected Applications in Speech Rec-ognition. L.R. Rabiner. Proceedings of the IEEE, Vol. 77, n. 2, Febrero 1989.
 Acoustic Modeling for Large Vocabulary Speech Recognition. C.H. Lee, L. R. Rabiner, R. Pieraccini y J.G. Wilpon. Computer Speech and Language (1990) 4, 127-165.
 Improved acoustic modeling with the SPHINX speech recognition system. Huang, X.D., K.F. Lee, H.W. Hon, M.Y. Hwang. IEEE ICASSP 1991, pp. 345-348.
 Phoneme classification using semicontinuous HMMs. Huang, X.D. IEEE Trans. on Signal Processing 1992, vol. 40, nº 5, pp. 1062-1067
 A comparative study of discrete, semicontinuous and continuous HMMs. Huang, X.D., H.W. Hon, M.Y. Hwang, K.F. Lee. Computer Speech and Lan-guage, 1993, nº 7, pp. 359-368.
 Subphonetic Modeling with Markov States - Senone. Hwang, M.Y., X.D. Huang. IEEE ICASSP 1992, pp. 33-36.
 Senones, Multi-Pass Search and Unified Stochastic Modelling in SPHINX-II. Hwang, M.Y., F. Alleva, X.D. Huang. EUROSPEECH 1993, vol. 3, pp. 2143-2146.
 Improved acoustic modeling for speaker independent large vocabulary CSR. Lee, C.H., E. Giachin, L.R. Rabiner, R. Pieraccini, A.E. Rosenberg. IEEE ICASSP 1991, pp. 161-164.
 Context-Dependent Phonetic HMMs for Speaker-Independent Continuous Speech Recognition. Lee, K.F. IEEE Trans. on ASSP 1990, Vol. 38, n1 4, pp. 599-609.
 Large vocabulary CSR using HTK. Woodland, P.C., J.J. Odell, V. Valtchev, S.J. Young. IEEE ICASSP 1994, pp. II-125-128.
 The use of state tying in continuous speech recognition. Young, S.J., P.C. Woodland. EUROSPEECH 1993, pp. 2203-2206.
 Different strategies for distribution clustering using discrete, semicontinuous and continuous HMMs in CSR. Córdoba, R., J.M. Pardo. ICSLP 1996, pp. 1101-1104.
 State Clustering Improvements for Continuous HMMs in a Spanish Large Vo-cabulary Recognition System. Córdoba, R., J. Macías-Guarasa, J. Ferreiros, J.M. Montero, J.M. Pardo. ICSLP 2002, pp. 677-680.
 Distintas alternativas de compartición de parámetros en modelos HMM contí-nuos en un sistema de reconocimiento de habla aislada, Gaviña Barroso, Da-vid, Proyecto Fin de Carrera, 2000.
Para Adaptación de HMMs:
 Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models. Legetter, C.J., Woodland, P.C. Computer Speech and Language, 9, pp 171-185, 1995.
 Cluster Adaptive Training of Hidden Markov Models. Gales, M.J.F., IEEE Transactions on Speech and Audio Processing, Vol. 8, Nº 4, Julio 2000.
 The Generation and Use of Regression Class Trees for MLLR Adaptation. Ga-les, M.J.F., Universidad de Cambridge, Agosto 1996
 Maximum Likelihood Linear Transformations for HMM-based speech recogni-tion. Gales, M.J.F., Computer Speech and Language, 12, pp. 75-98, 1998
 Maximum a Posteriori Estimation for Multivariate Gaussian Mixture Observa-tions of Markov Chains. Gauvain, J.L., Lee, C.H., IEEE Transactions on Speech and Audio Processing, Vol. 2, No. 2, Abril 1994
 Adaptive methods for speech and speaker recognition. Junqua, J.C., Kuhn, R. Tutorial de la International Conference on Spoken Language Processing (ICSLP), 2002.
 Structural MAP Speaker Adaptation Using Hierarchical Priors. Shinoda, K., Lee, C.H. Proc. IEEE Workshop on Automatic Speech Recognition and Understand-ing, pp. 381-388, Santa Barbara, 1997
 Speaker Adaptation: Techniques and Challenges. Woodland, P.C. Proc. IEEE Workshop on Automatic Speech Recognition and Understanding, pp. 85-90, 1999.
 Rapid Speaker Adaptation in Eigenvoice Space. Roland Kuhn, J.C. Junqua, P. Nguyen, N. Niedzielski. IEEE Transactions on speech and audio processing, Vol. 8, Nº 6, NOVEMBER 2000, pp. 695-707.
 Self-Adaptation Using Eigenvoices for Large-Vocabulary Continuous Speech Recognition. P. Nguyen, L. Rigazio, R. Kuhn, J.-C. Junqua, and C. Wellekens, in ISCA ITR Workshop on Adaptation Methods for Speech Recognition, pp. 37-40, 2001.
 Improved Cross-Task Recognition Using MMIE Training. Cordoba, R., P.C. Woodland & M.J.F. Gales. IEEE ICASSP 2002, pp. 85-88.
 Estudio de Técnicas de Adaptación a Locutor en Sistemas de Reconocimiento de Habla, Díaz, Sergio, Proyecto de Fin de Carrera, UPM, 2003.
 Cross-Task Adaptation and Speaker Adaptation in Air Traffic Control Tasks. Córdoba, R., J. Ferreiros, J.M. Montero, F. Fernández, J. Macías-Guarasa, S. Díaz. III Jornadas en Tecnología del Habla, pp. 93-97. Noviembre 2004.
Para Identificación de locutores:
 Speaker Verification Using Mixture Decomposition Discrimination. R. Sukkar, M. Gandhi, and A. Setlur. IEEE Trans. SAP, Vol. 8, pp. 292-299, 2000.
 Speaker Verification Using Adapted Gaussian Mixture Models. D.A. Reynolds, T.F. Quatieri, and R.B. Dunn. Digital Signal Processing Review Journal, Janu-ary 2000.
 Speaker verification over the telephone. L.F. Lamel, J.L. Gauvain. Speech Communication 31 (2000) 141-154.
 Speaker-specific mapping for text-independent speaker recognition. H. Misra, S. Ikbal, B. Yegnanarayana. Speech Communication 39 (2003) pp. 301–310.
 Robustness to telephone handset distortion in speaker recognition by dis-criminative feature design. Larry P. Heck, Yochai Konig, M. Kemal Sonmez, Mitch Weintraub. Speech Communication 31 (2000) 181-192.
 AHUMADA: A large speech corpus in Spanish for speaker characterization and identification. J. Ortega-Garcia, J. Gonzalez-Rodriguez, V. Marrero-Aguiar. Speech Communication 31 (2000) 255-264.
 Jin, Q., Schultz, T., Waibel, A., “Phonetic Speaker Identification”, ICSLP 2002, pp. 1345-1348.
Para Reconocimiento de idioma:
 Zissman, M.A., “Comparison of four approaches to automatic language identi-fication of telephone speech,” IEEE Trans. Speech and Audio Processing, vol. 4(1), pp. 31-44, 1996.
 Torres-Carrasquillo, P.A., Reynolds, D.A., Deller Jr., J.R., “Language identifica-tion using Gaussian mixture model tokenization”, IEEE ICASSP 2002, pp. I-757-760.
 Wong, E., Sridharan, S., “Methods to Improve Gaussian Mixture Model Based Language Identification System”, ICSLP 2002, pp. 93-96.
 Navratil, J. 2001. “Spoken Language Recognition – A Step Toward Multilin-guality in Speech Processing”. IEEE Transactions on Speech and Audio Proc-essing, Vol. 9, Nº 6, Sept. 2001, pp. 678-685.
 Gauvain, J.L., A. Messaoudi, H. Schwenk. 2004. “Language Recognition using Phone Lattices”. ICSLP, pp. I-25-28.
 Ramasubramaniam, V., A.K.V. Sai Jayram, T.V. Sreenivas. 2003. “Language Identification using Parallel Phone Recognition”. Workshop on Spoken Lan-guage Processing, India.
 PPRLM Optimization for Language Identification in Air Traffic Control Tasks. Córdoba, R., G. Prime, J. Macías-Guarasa, J.M. Montero, J. Ferreiros, J.M. Pardo, Eurospeech 2003, pp. 2685-2688.
Para Reconocimiento de Habla conectada:
 The Application of Dynamic Programming to Connected Speech Recognition
 Silverman, Harvey F. y Morgan, David P. IEEE ASSP Magazine, Julio 1990
 Progress in Dynamic Programming Search for LVCSR. Ney, Hermann y Ort-manns, Stefan. Proceedings of the IEEE, vol. 88, Nº 8, Agosto 2000
 Dynamic Programming Search for Continuous Speech Recognition. Ney, Hermann y Ortmanns, Stefan. IEEE Signal Processing Magazine, vol 16, nº 5. Septiembre 1999
 The Use of a One-Stage Dynamic Programming Algoritm for Connected Word Recognition. Ney, Hermann. IEEE Transactions on Acoustics, Speech and Sig-nal Processing, Vol. ASSP-32, Nº 2. Abril 1984
 An algorithm for Connected Word Recognition. Bridle, John S., Brown, Mi-chael D. y Chamberlain, Richard M. IEEE Something. 1982
 Connected Digit Recognition Using a Level-Building DTW Algorithm. Myers, Cory S. y Rabiner, Lawrence R. IEEE Transactions on Acoustics, Speech and Signal Processing, Vol. ASSP-29, Nº 3. Junio 1981
 Speaker Independent Connected Word Recognition Using a Syntax-Directed Dynamic Programming Procedure. Myers, Cory S. y Levinson, Stephen E.. IEEE Transactions on Acoustics, Speech and Signal Processing, Vol. ASSP-30, Nº 4. Agosto 1982
 Dynamic Programming Parsing for Context-Free Grammars in Continuous Speech Recognition. Ney, Hermann. IEEE Transactions on Signal Processing, Vol. 29, Nº 2. Febrero 1991
 Two-Level DP-Matching - A Dynamic Programming-Based Pattern Matching Algorithm for Connected Word Recognition. Sakoe, Hiroaki. IEEE Transactions on Acoustics, Speech and Signal Processing, Vol. ASSP-27, Nº 6. Diciembre 1979
 An Investigation of the Use of Dynamic Time Warping for Word Spotting and Connected Word Recognition. Myers, C.S., Rabiner, L.R. y Rosenberg, A.E. IEEE Something. 1980
 New DP Matching Algorithms for Connected Word Recognition. Watari, Ma-sao. ICASSP 96, pp 1113-1116. Tokyo.
 Bellman, R. Dynamic Programming and Modern Control Theory. Academic Press, 1965
Para Arquitecturas para reconocimiento:
 Arquitecturas y métodos en sistemas de reconocimiento de habla de gran vo-cabulario. Javier Macías Guarasa. Tesis Doctoral. ETSIT-UPM. 2001
 Spoken Language Processing. Xuedong Huang, Alex Acero y Hsiao-Wuen Hon. Prentice Hall PTR. 2001
Para Modelos Lingüísticos:
 Speech and Language Processing. D. Jurafsky y J.H. Martin. Prentice Hall, 2000
 Foundations of Statistical NLP. C. Manning y H. Schütze). MIT Press. 1999
 Natural Language Understanding. Allen, James. Benjamin/Cummings Publish-ing Co., Inc. 1995
 Statistical Language Modeling Using The CMU/cambridge Toolkit. P. Clarkson y R. Rosenfeld. Eurospeech 1997
 Progress in Dynamic Programming Search for LVCSR. Ney, Hermann y Ort-manns, Stefan. Proceedings of the IEEE, vol. 88, Nº 8, Agosto 2000
 A Bit of Progress in Language Modeling. Extended Version. Joshua T. Good-man. Microsoft Technical Report MSR-TR-2001-72
 Estimation of Probabilities from Sparse Data for the Language Model Compo-nent of a Speech Recognizer. S.M. Katz. IEEE Transactions on Acoustics Speech and Signal Processing, 35(3); pp. 400-401. 1987
 Improved Backing off for n-gram Language Modeling. R Kneser and H Ney. ICASSP 1995
 Dynamic Programming Parsing for Context-Free Grammars in Continuous Speech Recognition. Ney, Hermann. IEEE Transactions on Signal Processing, Vol. 29, Nº 2. Febrero 1991
 Speaker Independent Connected Word Recognition Using a Syntax-Directed Dynamic Programming Procedure. Myers, Cory S. y Levinson, Stephen E. IEEE Transactions on Acoustics, Speech and Signal Processing, Vol. ASSP-30, Nº 4. Agosto 1982.
 An Overview of Statistical Language Model Adaptation. J. Bellegarda, in ISCA ITR Workshop on “Adaptation Methods for Speech Recognition”, pp. 165-174, 2001.
 Two Decades of Statistical Language Modeling: Where Do We Go From Here? R. Rosenfeld, Proceedings of the IEEE, Vol. 88, no. 8, 2000.
Para Gestión de diálogo:
 Lamel, L., Rosset, S., Gauvain, J.L., Bennacef, S., Garnier-Rizet, H., Prouts, B., 2000. The LIMSI ARISE system. Speech Communication. Vol 31, No 4 pp 339-355, 2000.
 Pellom, B., Ward, W., Sameer Pradhan, 2000. The CU Communicator: An Ar-chitecture for Dialogue Systems. Proc. ICSLP, Pekín, China. Vol II. pp723-726. 2000.
 Rudnicky, A., Bennett, C., Black, A.W., Chotomongcol, A., Lenzo, K., Oh, A., 2000. Task and Domain specific modelling in the Carnegie Mellon Communi-cator System. Proc. ICSLP, Pekín, China, Sept. Vol II pp 130-133, 2000.
 R. San-Segundo, J.M. Montero, J. Macías-Guarasa, J. Ferreiros and J.M. Pardo. Knowledge-Combining Methodology for Dialogue Design in Spoken Language Systems "International Journal of Speech Technology". ISSN 1381-2416. Vol 8, issue 1, pp. 45-66. January 2005.
 Ward W., Pellom B. 1999. The CU Communicator System. Proc. IEEE Work-shop on Automatic speech Recognition and Understanding (ASRU), Keystone Colorado.
 Zue, V., 1997a. Conversational interfaces: advances and challenges. Proc. EUROSPEECH, Rodas, Grecia. kn-9-kn-18. 1997.
Para Evaluación de sistemas de diálogo:
 Charfuelán, A.M., 2004. Técnicas de Evaluación de Sistemas de Diálogo. Tesis Doctoral. Dpto SSR. ETSIT-UPM. 2004.
 DARPA Communicator. 2002. http://communicator.sourceforge.net/
 DISC 99. Dialogue Engineering Best Practice Methodology. http://www.disc2.dk. 1999.
 EAGLES 96. Expert Advisory Group on Language Engineering Standards. http://www.spectrum.uni-bielefeld/EAGLES/.
 ELSE 99. Evaluation in Language and Speech Engineering. http://m17.limsi.fr/TLP/ELSE
 E-MATER. E-Mail Access through the Telephone Using Speech Tecnology Re-sources: http://www.ub.es/gilcub/e-matter.
 Walker, M.A., Kamm, C.A., Litman, D.J., 2000. Towards developing general models of usability with PARADISE. Natural Language Engineering: Special Is-sue on Best Practice in Spoken Dialogue Systems, 2000.
 Walker, M.A., Rudnicky, A., Prasad, R., Aberdeen, J., Owen Bratt, E., Garo-folo, J., Hastie, H., Le, A., Pellom, B., Potamianos, A., Passonneau, R., Rou-kos, S., Sanders, G., Seneff, S., Stallard, D., 2001a. DARPA Communicator: Cross-System results for the 2001 Evaluation. ICSLP 2002. Vol.1, pp 269-272. Denver, CO USA, Sept. 2002.

Tribunal