2022/2023
Computación de Altas Prestaciones y Análisis de Big Data
Código: 43917
Créditos ECTS: 12
Titulación |
Tipo |
Curso |
Semestre |
4313473 Bioinformática / Bioinformatics |
OT |
0 |
1 |
Uso de idiomas
- Lengua vehicular mayoritaria:
- inglés (eng)
Equipo docente
- Santiago Marco Sola
Equipo docente externo a la UAB
- Emanuele Raineri
- Oscar Lao
Prerequisitos
Para cursar esta asignatura deben haberse superado previamente los dos módulos obligatorios: Programming in Bioinformatics y Core Bioinformatics.
Se recomienda disponer del nivel B2 (o equivalente) de inglés.
Objetivos y contextualización
Este módulo tiene como objetivo proporcionar a los estudiantes los conocimientos y habilidades necesarios (1) para implementar aproximaciones de ingeniería de rendimiento en plataformas informáticas modernas y (2) para realizar análisis estadísticos de Big Data.
Competencias
- Comunicar en lengua inglesa de manera clara y efectiva los resultados de sus investigaciones.
- Diseñar y aplicar la metodología científica en la resolución de problemas.
- Poseer y comprender conocimientos que aporten una base u oportunidad de ser originales en el desarrollo y/o aplicación de ideas, a menudo en un contexto de investigación.
- Proponer soluciones bioinformáticas a problemas derivados de las investigaciones ómicas.
- Proponer soluciones innovadoras y emprendedoras en su campo de estudio.
- Utilizar sistemas operativos, programas y herramientas de uso común en bioinformática, así como, manejar plataformas de cómputo de altas prestaciones, lenguajes de programación y análisis bioinformáticos.
- Utilizar y gestionar información bibliográfica y recursos informáticos en el ámbito de estudio.
Resultados de aprendizaje
- Aplicar métodos estadísticos avanzados (aprendizaje automático, teoría de grafos) para modelar y analizar problemas bioinformáticos que manejan datos biológicos masivos.
- Aprender a entrenar, evaluar y validar modelos predictivos.
- Aprender a manejar las nuevas plataformas de cómputo paralelo, paradigmas, y el diseño de aplicaciones que requieren un manejo masivo de cómputo y datos.
- Aprender nuevas formas de modelar, almacenar, recuperar y analizar tipos de datos abstractos (grafos).
- Comunicar en lengua inglesa de manera clara y efectiva los resultados de sus investigaciones.
- Conocer los principios de la paralelización de procesos.
- Conocer los principios del almacenamiento y la gestión de datos masivos.
- Conocer y aprender a manejar herramientas de código abierto para el análisis paralelo, distribuido y escalable mediante aprendizaje automático.
- Describir el funcionamiento, características y limitaciones de las técnicas, las herramientas y las metodologías que permiten describir, analizar e interpretar la enorme cantidad de datos producidos por las tecnologías de alto rendimiento.
- Describir y aplicar técnicas de agrupamiento (clustering) y algoritmos de clasificación comunes.
- Diseñar y aplicar la metodología científica en la resolución de problemas.
- Generar algoritmos de computación paralela eficientes y aplicaciones para la CID.
- Poseer y comprender conocimientos que aporten una base u oportunidad de ser originales en el desarrollo y/o aplicación de ideas, a menudo en un contexto de investigación.
- Proponer soluciones innovadoras y emprendedoras en su campo de estudio.
- Proporcionar soluciones paralelas a problemas bioinformáticos concretos.
- Utilizar y gestionar información bibliográfica y recursos informáticos en el ámbito de estudio.
Contenido
Arquitectura Moderna de Ordenadores
- Arquitectura de procesadores de uso general y especializado
- Jerarquía de memoria
- Sistemas de clúster
- Infraestructuras en la nube y virtualización de sistemas
- Sistema Middleware y marcos de programación
Modelos de Programación Avanzada
- Memoria compartida y programación paralela distribuida
- Usando herramientas del sistemas para análisis bioinformáticos
- Shell scripting avanzado
- Principios de ingeniería de rendimiento (herramientas y métodos)
- Computación de Altas Prestaciones con Python
- Ingeniería de rendimiento aplicada a algoritmos y herramientas comunes de bioinformática (indexación del genoma, alineamiento de reads, ...)
Análisis de Big Data
- Teoría y herramientas de estadística avanzada en análisis de Big Data (reducción de dimensionalidad, selección de variables y Spark)
- Teoría y algoritmos de machine learning. Aplicaciones en bioinformática
- Modelado predictivo: minería de datos, evaluación y validación de modelos
- Clasificación de datos: aprendizaje de Bayes ingenuo y árboles de decisión
- Aprendizaje de reglas de associación
- Análisis de clusterización: algoritmo k-means
- Teoría de grafos para Big Data
Metodología
Siguiendo una aproximación basada en problemas, el alumnado aprenderá sobre algoritmos, métodos y plataformas computacionales eficientes y los métodos estadísticos que se aplicarán a los desafiantes problemas de bioinformática que tratan con Big Data.
Nota: se reservarán 15 minutos de una clase dentro del calendario establecido por el centro o por la titulación para que el alumnado rellene las encuestas de evaluación de la actuación del profesorado y de evaluación de la asignatura o módulo.
Evaluación
El sistema de evaluación está organizado en dos actividades principales. Habrá, además, un examen de recuperación. Los detalles de las actividades son:
Actividades de evaluación principales
- Portafolio del estudiante (60%): trabajos hechos y presentados por el alumno a lo largo del curso. Ninguna de las actividades de evaluación individuales representará más del 50% de la nota final.
- Prueba teórica y práctica individual (40%): habrá un examen al final de este módulo.
Examen de recuperación
Para poder participar en el proceso de recuperación, el alumno deberá previamente haber participado en como mínimo el equivalente a dos tercios de la nota final del módulo en actividades de evaluación. El profesorado informará de los procedimientos y plazos para el proceso de recuperación.
No evaluable
El alumno será calificado como “No evaluable” cuando el peso de la evaluación en la que ha participado sea inferior al equivalente al 67% de la nota final del módulo.
Actividades de evaluación
Título |
Peso |
Horas |
ECTS |
Resultados de aprendizaje |
Prueba teórica y práctica individual |
40% |
4
|
0,16 |
1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 12, 15, 14, 13
|
Trabajos hechos y presentados por el alumnado (portafolio del estudiante) |
60% |
0
|
0 |
1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 15, 14, 13, 16
|
Bibliografía
El profesor recomendará la bibliografía actualizada en cada sesión de este módulo, y los enlaces se pondrán a disposición en el Área del Estudiante del sitio web oficial de MSc Bioinformatics.
Software
Linux + SLURM y otras herramientas del entorno Linux
Python y herramientas de su ecosistema
R y herramientas de su ecosistema