Logo UAB
2023/2024

Aprendizaje No Supervisado

Código: 104869 Créditos ECTS: 6
Titulación Tipo Curso Semestre
2503852 Estadística Aplicada OB 2 2

Contacto

Nombre:
Maria Merce Farre Cervello
Correo electrónico:
merce.farre@uab.cat

Idiomas de los grupos

Puede consutarlo a través de este enlace. Para consultar el idioma necesitará introducir el CÓDIGO de la asignatura. Tenga en cuenta que la información es provisional hasta el 30 de noviembre del 2023.


Prerrequisitos

Es imprescindible un curso previo de álgebra lineal, así como los cursos de probabilidades, dustrubuciones multidimensionales e inferencia estadística. También se supone que sabe utilizar con agilidad el lenguaje R.


Objetivos y contextualización

La necesidad de procesar gran cantidad de datos con muchas variables de naturaleza diversa, aunque reduciendo la información que no sea relevante y descubriendo patrones de asociación entre variables y/o casos, han ocasionado el desarrollo de un gran número de procedimientos que se sitúan en el escenario multivariante. En Aprendizaje No Supervisado se tratan los métodos más apropiados para describir, explorar y modelizar datos vectoriales. La asignatura se plantea como un primer contacto del estudiante con el mundo del llamado "aprendizaje estadístico" (“statistical learning”), para que comprenda la potencia y aplicabilidad, y al mismo tiempo las limitaciones, de los métodos, algunos de los que se basan en ideas heurísticas bastante intuitivas. La mayoría de los métodos trabajados en el curso son de tipo no supervisado, es decir, no se dispone de un conjunto de casos con respuestas conocidas que permitan evaluar el método. El enfoque de la asignatura es eminentemente aplicado en lo que se refiere al trabajo con datos usando el potencial del software libre R, acompañado del rigor y generalidad adecuados en la definición de los modelos teóricos y los correspondientes métodos de análisis y validación de resultados.


Competencias

  • Analizar datos mediante la aplicación de métodos y técnicas estadísticas, trabajando con datos de diversas tipologías.
  • Aplicar el espíritu crítico y el rigor para validar o refutar argumentos tanto propios como de otras personas.
  • Evaluar de manera crítica y con criterios de calidad el trabajo realizado.
  • Que los estudiantes hayan desarrollado aquellas habilidades de aprendizaje necesarias para emprender estudios posteriores con un alto grado de autonomía.
  • Que los estudiantes puedan transmitir información, ideas, problemas y soluciones a un público tanto especializado como no especializado.
  • Que los estudiantes sepan aplicar sus conocimientos a su trabajo o vocación de una forma profesional y posean las competencias que suelen demostrarse por medio de la elaboración y defensa de argumentos y la resolución de problemas dentro de su área de estudio.
  • Que los estudiantes tengan la capacidad de reunir e interpretar datos relevantes (normalmente dentro de su área de estudio) para emitir juicios que incluyan una reflexión sobre temas relevantes de índole social, científica o ética.
  • Resumir y descubrir patrones de comportamiento en la exploración de los datos.
  • Seleccionar las fuentes y técnicas de adquisición y gestión de datos adecuadas para su tratamiento estadístico.
  • Seleccionar y aplicar procedimientos más apropiados para la modelización estadística y el análisis de datos complejos.
  • Trabajar cooperativamente en un contexto multidisciplinar asumiendo y respetando el rol de los diferentes miembros del equipo.
  • Utilizar eficazmente la bibliografía y los recursos electrónicos para obtener información.

Resultados de aprendizaje

  1. Analizar datos mediante metodología de aprendizaje automático.
  2. Aplicar el espíritu crítico y el rigor para validar o refutar argumentos tanto propios como de otros.
  3. Caracterizar grupos homogéneos de individuos mediante análisis multivariante.
  4. Describir las ventajas e inconvenientes de los métodos algorítmicos frente a los métodos convencionales de la inferencia estadística.
  5. Emplear gráficos de resumen de datos multivariados o más complejos.
  6. Evaluar de manera crítica y con criterios de calidad el trabajo realizado.
  7. Identificar las suposiciones estadísticas asociadas a cada procedimiento avanzado.
  8. Identificar, emplear e interpretar los criterios para evaluar el grado de cumplimiento de los requisitos necesarios para aplicar cada procedimiento avanzado.
  9. Obtener y gestionar bases de datos complejas para su posterior análisis.
  10. Que los estudiantes hayan desarrollado aquellas habilidades de aprendizaje necesarias para emprender estudios posteriores con un alto grado de autonomía.
  11. Que los estudiantes puedan transmitir información, ideas, problemas y soluciones a un público tanto especializado como no especializado.
  12. Que los estudiantes sepan aplicar sus conocimientos a su trabajo o vocación de una forma profesional y posean las competencias que suelen demostrarse por medio de la elaboración y defensa de argumentos y la resolución de problemas dentro de su área de estudio.
  13. Que los estudiantes tengan la capacidad de reunir e interpretar datos relevantes (normalmente dentro de su área de estudio) para emitir juicios que incluyan una reflexión sobre temas relevantes de índole social, científica o ética.
  14. Trabajar cooperativamente en un contexto multidisciplinar asumiendo y respetando el rol de los diferentes miembros del equipo.
  15. Utilizar eficazmente bibliografía y recursos electrónicos para obtener información.

Contenido

Aprendizaje estadístico (statistical learning) y reducción de la dimensión

  • Aprendizaje supervisado y no-supervisado. Clasificación de los métodos. Ejemplos.
  • Vectores aleatorios. El vector de esperanzas y las matrices de covarianzas y correlaciónes. Propiedades.
  • Datos multivariantes. El vector de medias y las matrices de covarianza y correlación muestrales.
  • Estimadores de máxima verosimilitud en el caso Gaussiano.
  • Las descomposiciones espectral (SD) y en valores singulares (SVD).
  • Teorema fundamental de maximización de formas cuadráticas con restricciones.

Métodos factoriales I: Análisis de componentes principales (ACP)

  • Introducción al ACP. Definición de componentes. El resultado fundamental.
  • Criterios para decidir el número de componentes: las componentes principales.
  • Gráficas de variables y de individuos. Estandarizaciones.
  • Análisis de la matriz de vectores propios, y de matrices derivadas, por filas y por columnas.
  • Enfoque geométrico del ACP.

 Métodos factoriales II: Análisis factorial (AF)

  • El modelo factorial. Comunalidades y especificidades.
  • Teorema de descomposición de la matriz de covarianza.
  • Existencia y unicidad del modelo factorial? Rotaciones.
  • Métodos de estimación de los parámetros del modelo factorial. Las puntuaciones factoriales (scores): estimación o predicción.
  • Interpretación de los resultados. Comparación del ACP y el AF.

Métodos factoriales III: Escalamiento multidimensional (EMD) y análisis de correspondencias (AC)

  • Objetivos y métodos.
  • EMD: clásico y métrico.
  • EMD no métrico.
  • Distancias, proximidades y disimilaridades.
  • Datos categóricos: distancia ji-cuadrado y otras.
  • Análisis de correspondencias (AC) como caso particular de EMD
  • Perfiles e inercia. Descomposición de la inercia.
  • Representación gráfica e interpretación de los resultados del AC.

Análisis de clústers (ACL)

  • Comparación de diferentes enfoques. Ejemplos.
  • Análisis y validación de los resultados de los clústers.
  • Conglomerados jerárquicos: Funciones de enlace.
  • Métodos basados en centroides: El método de las k-medias.
  • Métodos basados en modelos probabilísticos: Esperanza y maximización (EM).

Básicos en inferencia multivariante

  • Test de la razón de verosimilitudes.
  • Tests para vectores de medias.
  • Tests para matrices de covarianzas. ANOVA y MANOVA.

Análisis discriminante (AD)

  • Objetivos y criterios de AD.
  • Análisis discriminante en modelos gaussianos.
  • Discriminante lineal de Fisher.

Metodología

Clases de teoría, donde se expondrán detalladamente y se discutirán los contenidos en base a ejemplos de aplicación convenientemente interpretados. Los resúmenes de los apuntes se colgarán en el Campus virtual. Se estimulará la revisión y ampliación de contenidos con la bibliografía básica y complementaria.


Clases prácticas pensadas para implementar con el lenguaje estadístico R. Los guiones de las prácticas, los enunciados de problemas y otro material auxiliar se pondrán a disposición del alumnado en el Campus Virtual. En las clases prácticas se propondrán ejercicios de ampliación para resolver autónomamente.

Se procurará la colaboración y participación de todos los estudiantes, sin ningún tipo de discriminación por razón de sexo u otra causa.

Nota: se reservarán 15 minutos de una clase dentro del calendario establecido por el centro o por la titulación para que el alumnado rellene las encuestas de evaluación de la actuación del profesorado y de evaluación de la asignatura o módulo.


Actividades

Título Horas ECTS Resultados de aprendizaje
Tipo: Dirigidas      
Clases de prácticas con ordenador 26 1,04 1, 4, 5, 7, 8, 9, 12, 13, 14, 15
Clases de teoría 26 1,04 1, 2, 6, 3, 4, 5, 7, 8, 9
Tipo: Autónomas      
Estudio y consultas 42 1,68 2, 4, 7, 8, 10, 15
Resolución y entrega de ejercicios 44 1,76 1, 3, 4, 5, 9, 10, 11, 12, 13, 14, 15

Evaluación

La nota de curso (NC) se calculará a partir de las entregas de exercicios teóricos y de prácticas y de las notas de dos exámenes parciales (P1 y P2), tanto de teoría como de prácticas. Detalle de la nota de curso:

NC = 0,35•P1 + 0,45•P2 + 0,20•Lli

donde P1 y P2 son las notas del primer parcial y del segundo parcial y Lli es la nota de las entregas que se propongan y que no se podrán recuparar.

El aprovado por curso requiere que NC>=5 y que P1 y P2 sean ambas mayores que 3.5 (sobre 10). El examen final de recuperación (F) será una prueba de síntesis de todo el semestre con una parte teórica y una de computacional. Los alumnes pueden presentarse a la recuperación para mejorar su NC. No obstante, el profesor se reserva el derecho a decidir las matrículas d'honor,  si las hubiere, antes del examen de recuperación. La nota final se calculará:

NF=Max(NC , 0,80•F + 0,20Lli)

Observación: Solo se podrán presentar a examen final aquellos estudiantes que hayan participado en 2/3 partes de las actividades de evaluación continuada.

Evaluación única

La evaluación única será una prueba de síntesis de las competencias de ambos parciales, en base a: (1) Un examen con cuestiones de teoría y de prácticas (peso: 50%). (2) Una prueba de prácticas delante del ordenador (peso: 40%). (3) La entrega de las tareas programadas que se indiquen, con la posibilidad de que el profesorado pida que el estudiante explique detalles de estas entregas (peso: 10%).


Actividades de evaluación continuada

Título Peso Horas ECTS Resultados de aprendizaje
Entrega de tareas 0,2 4 0,16 2, 6, 9, 10, 11, 12, 13, 14, 15
Primer parcial (teoría i prácticas) 0,35 4 0,16 1, 5, 7, 8, 10, 11
Segundo parcial (teoría y pràcticas) 0,45 4 0,16 1, 3, 4, 7, 8, 9, 10, 11, 12, 15

Bibliografía

Everitt, B., Hothorn, T. ; An introduction to Applied Multivariate Analysis with R. Springer, 2011.

Härdle, W., Simar, L.; Applied Multivariate Statistical Analysis. Springer,2007.

Peña, D.; Análisis de datos multivariantes. McGraw Hill, 2002.

Rencher, A., Christensen, W.; Methods of Multivariate Analysis. Wiley Series in Probability and Mathematical Statistics, 2012.

Wehrens, R. (2020). Chemometrics with R: Multivariate data analysis in the natural sciences and life sciences. Heidelberg: Springer. https://link-springer-com.are.uab.cat/book/10.1007/978-3-662-62027-4

Bibliografia complementària

Coghlan, A.; Little book of R for Multivariate Analysis.

https://little-book-of-r-for-multivariate-analysis.readthedocs.io/en/latest/

Cuadras, C.; Nuevos Métodos de Análisis Multivariante (web), 2014.

Greenacre, M.; La pràctica del análisis de correspondencias. Fundacion BBA, 2003.

James, G., Witten, D., Hastie, T., Tibshirani, R.; An Introduction to Statistical Learning. Springer, 2014.

Mardia, K.V, Kent, J.T., Bibby, J.M.; Multivariate Analysis. Academic Press, 2003.

Rencher, A.; Multivariate Statistical Inference and Applications. John Wiley &Sons, 1998.


Software

R y RStudio