Aprendizaje computacional y descubrimiento de conocimiento

Desde un punto de vista muy general, podemos afirmar que el estudio de formalismos y la observación de la realidad llevan a la definición de nuevos formalismos o métodos de aprendizaje computacional, que posteriormente se pueden aplicar a situaciones reales. Concretamente, el aprendizaje de árboles de decisión constituye un campo de gran interés teórico y práctico, en el cual algunos miembros de nuestro grupo han trabajado desde los años 80 (Núñez 91). Prosiguiendo por esta línea, el Dr. Rafael Morales dirige actualmente el desarrollo del proyecto “Formalismos Arborescentes: Complejidad y Aprendizaje” financiado por la CICYT (PB98-0937-C04-01), en el cual se estudia, desde el punto de vista teórico, la Complejidad en relación con la bondad del aprendizaje y, desde el punto de vista práctico, se propone el desarrollo de programas para estos formalismos y su aplicación a situaciones reales como, por ejemplo, el descubrimiento de conocimiento oculto sobre las posibilidades de acabar la carrera de un alumno a partir de los datos de su expediente. 

También se han realizado desarrollos teóricos y prácticos para el aprendizaje de gramáticas que se han aplicado, por ejemplo, para la generación automática de cuadros de Mondrian (Fortes et al. 99). Este trabajo fue galardonado con el premio de investigación “Ateneo de Málaga”. Otra estructura de aprendizaje en las que ha trabajado nuestro grupo viene dada por los modelos ocultos de Markov. Hemos definido un modelo que mejora el de los árboles de Markov de longitud variable, al incluir las características de ocultación, así como otros modelos más avanzados. Todos estos modelos se han aplicado a la generación automática de corales de Bach (disponible en la WEB del grupo) (Triviño et al. 2000) y a la implementación de un desambiguador morfológico de la lengua castellana (Triviño et al. 97). 

Aprendizaje computacional

En los próximos años vamos a trabajar en el estudio, el desarrollo teórico, la implementación y la validación empírica de conceptos formales y criterios para su empleo en la construcción de modelos descriptivos y predictivos de secuencias simbólicas. En concreto estudiaremos los siguientes tipos de modelos: mecanismos de compresión (compresores de estados finitos y algoritmos de Lempel-Ziv), generalizaciones de grafos (extensiones probabilistas y cuánticas, árboles de decisión, integración de árboles de decisión con modelos ocultos de Markov, 2-estructuras y T-estructuras), modelos gramaticales (gramáticas categoriales, modelos suavemente sensibles al contexto), series temporales, estudio de subsecuencias (búsqueda de episodios, conjuntos frecuentes y reglas de asociación; descubrimiento de patrones de conducta). La validación empírica de los modelos se realizará utilizando grandes volúmenes de datos reales: alumnos de universidades, datos oncológicos del Hospital Clínico Universitario, secuencias de datos biológicos, datos climáticos.