Computació d'Altes Prestacions i Anàlisi de Big Data
Codi: 43917
Crèdits: 12
2024/2025
Titulació |
Tipus |
Curs |
4313473 Bioinformàtica / Bioinformatics |
OT |
0 |
Equip docent
- José Eduardo Cabrera Díaz
- Oscar Lao Grueso
- Emanuele Raineri
Idiomes dels grups
Podeu consultar aquesta informació al final del document.
Prerequisits
Per a poder fer aquest mòdul és necessari haver aprovat els dos mòduls obligatoris: Programming in Bioinformatics i Core Bioinformatics.
Es recomana tenir el nivell B2 d'anglès o equivalent.
Objectius
Aquest mòdul pretén proporcionar als estudiants els coneixements i habilitats necessàries (1) per implementar aproximacions d’enginyeria de rendiment a les plataformes d’informàtica modernes i (2) per realitzar anàlisis estadístiques de Big Data.
Competències
- Comunicar en llengua anglesa de manera clara i efectiva els resultats de les pròpies investigacions.
- Dissenyar i aplicar la metodologia científica en la resolució de problemes.
- Proposar solucions bioinformàtiques a problemes derivats de les recerques òmiques.
- Proposar solucions innovadores i emprenedores en el seu camp d'estudi.
- Tenir coneixements que aportin la base o l'oportunitat de ser originals en el desenvolupament o l'aplicació d'idees, sovint en un context de recerca.
- Utilitzar i gestionar informació bibliogràfica i recursos informàtics en l'àmbit d'estudi.
- Utilitzar sistemes operatius, programes i eines d'ús comú en bioinformàtica, i fer servir plataformes de còmput d'altes prestacions, llenguatges de programació i anàlisis bioinformàtiques.
Resultats d'aprenentatge
- Aplicar mètodes estadístics avançats (aprenentatge automàtic, teoria de grafs) per modelar i analitzar problemes bioinformàtics amb dades biològiques massives.
- Aprendre a entrenar, avaluar i validar models predictius.
- Aprendre a fer servir les noves plataformes de còmput paral·lel, paradigmes, i el disseny d'aplicacions que requereixen un maneig massiu de còmput i dades.
- Aprendre noves maneres de modelar, emmagatzemar, recuperar i analitzar tipus de dades abstractes (grafs).
- Comunicar en llengua anglesa de manera clara i efectiva els resultats de les pròpies investigacions.
- Conèixer els principis de la paral·lelització de processos.
- Conèixer els principis de l’emmagatzemament i la gestió de dades massives.
- Conèixer i aprendre a utilitzar eines de codi font obert per a l’anàlisi paral·lela, distribuïda i escalable mitjançant aprenentatge automàtic.
- Descriure el funcionament, les característiques i les limitacions de les tècniques, les eines i les metodologies que permeten descriure, analitzar i interpretar l'enorme quantitat de dades produïdes per les tecnologies d'alt rendiment.
- Descriure i aplicar tècniques de clusterització (clustering) i algoritmes de classificació comuns
- Dissenyar i aplicar la metodologia científica en la resolució de problemes.
- Generar algoritmes de computació paral·lela eficients i aplicacions per a la CID
- Proporcionar solucions paral·leles a problemes bioinformàtics concrets.
- Proposar solucions innovadores i emprenedores en el seu camp d'estudi.
- Tenir coneixements que aportin la base o l'oportunitat de ser originals en el desenvolupament o l'aplicació d'idees, sovint en un context de recerca.
- Utilitzar i gestionar informació bibliogràfica i recursos informàtics en l'àmbit d'estudi.
Continguts
Arquitectura Moderna d'Ordinadors
- Sistemes de clúster
- Sistema Middleware i marcs de programació
Models de Programació Avançats
- Memòria compartida i programació paral·lela distribuïda
- Shell scripting avançat
- Usant eines del sistema per a anàlisis bioinformàtics
- Computació d'Altes Prestacions amb Python
- Enginyeria de rendiment aplicada a algorismes i eines comunes de bioinformàtica (indexació del genoma, alineament de reads, ...).
Anàlisi de Big Data
- Teoria i eines d’estadística avançades en anàlisi de Big Data (reducció de dimensionalitat, selecció de variables i Spark)
- Teoria i algoritmes d’aprenentatge de màquines. Aplicacions en Bioinformàtica
- Modelat predictiu: mineria de dades, avaluació i validació de models
- Classificació de dades: aprenentatge de Bayes ingenu i arbres de decisió
- Aprenentatge de regles d'associació
- Anàlisi de clusterització: algoritme k-means
- Teoria de grafs per Big Data
Activitats formatives i Metodologia
Títol |
Hores |
ECTS |
Resultats d'aprenentatge |
Tipus: Dirigides |
|
|
|
Classes teòriques |
38
|
1,52 |
1, 10, 9, 11, 12, 8, 7, 6, 4, 3, 15, 14, 13, 2, 16
|
Resolució de problemes a classe i tasques al laboratori biocomputacional |
32
|
1,28 |
1, 10, 9, 12, 8, 7, 6, 4, 3, 15, 13, 2
|
Tipus: Autònomes |
|
|
|
Estudi autònom individual |
226
|
9,04 |
1, 10, 9, 11, 12, 8, 7, 6, 4, 3, 14, 2, 16
|
Seguint una aproximació basada en problemes, l'alumnat aprendrà sobre algorismes, mètodes i plataformes computacionals eficients i els mètodes estadístics que s'aplicaran als problemes de bioinformàtica que tracten amb Big Data.
Nota: es reservaran 15 minuts d'una classe, dins del calendari establert pel centre/titulació, per a la complementació per part de l'alumnat de les enquestes d'avaluació de l'actuació del professorat i d'avaluació de l'assignatura/mòdul.
Avaluació
Activitats d'avaluació continuada
Títol |
Pes |
Hores |
ECTS |
Resultats d'aprenentatge |
Prova teòrica i pràctica individual |
30% |
4
|
0,16 |
1, 5, 10, 9, 12, 8, 7, 6, 4, 3, 15, 14, 13, 2
|
Treballs fet i presentats per l'alumnat (portafoli de l'estudiant) |
70% |
0
|
0 |
1, 5, 10, 9, 11, 12, 8, 7, 6, 4, 3, 15, 14, 13, 2, 16
|
El sistema d'avaluació està organitzat en dues activitats principals. Hi haurà, a més, un examen de recuperació. Els detalls de les activitats són:
Activitats d'avaluació principals
- Portafoli de l'estudiant (70%): treballs fet i presentats per l'alumnat al llarg del curs. Cap de les activitats d’avaluació individuals representarà més del 50% de la nota final.
- Prova teòrica o pràctica individual (30%): per a cadascun dels mòduls principals de l'assignatura s'establirà algun mecanisme d'avaluació individual mitjançant una prova oral o escrita.
Examen de recuperació
Per poder participar en el procés de recuperació, l'alumnat haurà d’haver participat prèviament en com a mínim l'equivalent a dos terços de la nota final del mòdul en activitats d'avaluació. El professorat informarà dels procediments i terminis per al procés de recuperació.
No avaluable
L'alumnat serà qualificat com a "No avaluable" quan el pes de l'avaluació en què ha participat sigui inferior a l’equivalent al 67% de la nota final del mòdul.
Avaluació única
Aquesta assignatura/mòdul no preveu el sistema d’avaluació única.
Bibliografia
El professorat recomanarà la bibliografia actualitzada a cada sessió d'aquest mòdul, i els enllaços estaran disponibles a l’Àrea de l'Estudiant del lloc web oficial del MSc Bioinformatics
Programari
Linux + SLURM i altres eines de l'entorn Linux
Python i eines del seu ecosistema
R i eines del seu ecosistema
Llista d'idiomes
Nom |
Grup |
Idioma |
Semestre |
Torn |
(PLABm) Pràctiques de laboratori (màster) |
1 |
Anglès |
primer quadrimestre |
matí-mixt |
(TEm) Teoria (màster) |
1 |
Anglès |
primer quadrimestre |
matí-mixt |