2022/2023
Modelització de Dades Complexes
Codi: 104864
Crèdits: 6
Titulació |
Tipus |
Curs |
Semestre |
2503852 Estadística Aplicada |
OB |
3 |
2 |
Utilització d'idiomes a l'assignatura
- Llengua vehicular majoritària:
- català (cat)
- Grup íntegre en anglès:
- No
- Grup íntegre en català:
- Sí
- Grup íntegre en espanyol:
- No
Equip docent
- Rosario Delgado de la Torre
Prerequisits
Es suposa que l'alumne que cursa aquesta assignatura ha adquirit les competències pròpies de les assignatures de
- Càlcul 1,
- Eines informàtiques per a l'Estadística i Introducció a la Programació,
- Introducció a la Probabilitat i Inferència Estdística 1, i
- Aprenentatge Automàtic 1.
Caldrà un bon nivell i pràctica en la programació amb R.
Objectius
Aprendre què són i com es fan servir les Xarxes Bayesianes: són un model probabilístic que es fa servir a l'Aprenentatge Automàtic Supervisat i que descriu les relacions de tipus probabilístic entre les variables que afecten determinat fenomen d'interès (que pot ser un sistema complex) i es poden fer servir com a classificadors.
Entendre com les Xarxes Bayesianes es fan servir per avaluar i quantificar riscos, entre altres aplicacions.
Conèixer diferents metodologies que s'hauran d'aplicar, o no, quan es treballi amb aquests models, dependent de les seves característiques, en la fase de pre-procés de la base de dades o bé en la fase de construcció del model predictiu.
Conèixer diferents mètriques de comportament per a fer la validació del model i entendre la seva utilitat i adequació, en funció de les característiques de la base de dades.
Aprendre com construir scripts de R que permetin aprendre aquests models a partir d'una base de dades i fer la seva validació, fent servir les llibreries pertinents. Aplicar-ho amb dades reals.
Competències
- Analitzar dades mitjançant l'aplicació de mètodes i tècniques estadístiques, treballant amb dades de diverses tipologies.
- Aplicar l'esperit crític i el rigor per validar o refutar arguments tant propis com d'altres persones.
- Avaluar de manera crítica i amb criteris de qualitat el treball realitzat.
- Dissenyar un estudi estadístic o de recerca operativa per a la resolució d'un problema real.
- Formular hipòtesis estadístiques i desenvolupar estratègies per confirmar-les o refutar-les.
- Interpretar resultats, extreure conclusions i elaborar informes tècnics en el camp de l'estadística.
- Que els estudiants puguin transmetre informació, idees, problemes i solucions a un públic tant especialitzat com no especialitzat.
- Que els estudiants sàpiguen aplicar els coneixements propis a la seva feina o vocació d'una manera professional i tinguin les competències que se solen demostrar per mitjà de l'elaboració i la defensa d'arguments i la resolució de problemes dins de la seva àrea d'estudi.
- Que els estudiants tinguin la capacitat de reunir i interpretar dades rellevants (normalment dins de la seva àrea d'estudi) per emetre judicis que incloguin una reflexió sobre temes destacats d'índole social, científica o ètica.
- Resumir i descobrir patrons de comportament en l'exploració de les dades.
- Seleccionar i aplicar procediments més apropiats per a la modelització estadística i l'anàlisi de dades complexes.
- Utilitzar correctament un ampli espectre del programari i llenguatges de programació estadístiques, escollint el més apropiat per a cada anàlisi i ser capaç d'adaptar-lo a noves necessitats.
- Utilitzar eficaçment la bibliografia i els recursos electrònics per obtenir informació.
Resultats d'aprenentatge
- Analitzar dades mitjançant altres models per a dades complexes (dades funcionals, dades de recompte, etc.).
- Analitzar dades mitjançant tècniques d'inferència utilitzant programari estadístic.
- Aplicar l'esperit crític i el rigor per validar o refutar arguments, tant propis com d'altres.
- Avaluar de manera crítica i amb criteris de qualitat la feina feta.
- Elaborar informes tècnics específics de l'àmbit de la modelització estadística.
- Establir les hipòtesis experimentals de la modelització.
- Fer servir gràfics de visualització de l'ajustament i de l'adequació del model.
- Identificar les etapes en els problemes de modelització.
- Identificar les suposicions estadístiques associades a cada procediment.
- Modificar lleugerament el programari existent si el model estadístic proposat ho requereix.
- Que els estudiants puguin transmetre informació, idees, problemes i solucions a un públic tant especialitzat com no especialitzat.
- Que els estudiants sàpiguen aplicar els coneixements propis a la seva feina o vocació d'una manera professional i tinguin les competències que se solen demostrar per mitjà de l'elaboració i la defensa d'arguments i la resolució de problemes dins de la seva àrea d'estudi.
- Que els estudiants tinguin la capacitat de reunir i interpretar dades rellevants (normalment dins de la seva àrea d'estudi) per emetre judicis que incloguin una reflexió sobre temes destacats d'índole social, científica o ètica.
- Utilitzar eficaçment bibliografia i recursos electrònics per obtenir informació.
- Validar els models utilitzats mitjançant tècniques d'inferència adequades.
Continguts
- Introducció a les Xarxes Bayesianes (XBs).
Definició.
Inferència amb XBs.
Aprenentatge de XBs (tant d'estructura com de paràmetres).
- Les XB com a classificadors.
La tasca de classificació dins l'Aprenentatge Automàtic Supervisat.
El criteri MAP.
Tipus de XB (Naive Bayes, Augmented Naive, TAN).
Tipus de classificació: binària, multi-class, multi-label.
- La validació i les mètriques que comportament.
Validació creuada.
Mètriques pel cas binari i multi-class.
Mètriques pel cas de classificació ordinal.
- Altres aspectes.
Classificació multi-label: les cadenes de classificadors.
L'aproximació cost-sensitive.
El problema del desequilibri de la base de dades: oversampling, thresholding,...
Ensembles de classificadors.
XBs Gaussianes i híbrides.
XBs dinàmiques.
Metodologia
L’assignatura s’estructura a partir de classes teòriques, de problemes i de pràctiques. El seguiment de l’assignatura és presencial, però caldrà ampliar les explicacions del professor amb l’estudi autònom de l’alumne, amb el suport de la bibliografia de referència i del material facilitat pel professor.
La classe de problemes es dedicaran a la resolució orientada d’alguns problemes proposats. A les classes pràctiques es treballarà amb R i les seves llibreries. Es valorarà especialment la participació dels estudiants a les classes de problemes i pràctiques.
Nota: es reservaran 15 minuts d'una classe, dins del calendari establert pel centre/titulació, per a la complementació per part de l'alumnat de les enquestes d'avaluació de l'actuació del professorat i d'avaluació de l'assignatura/mòdul.
Avaluació
La qualificació final d'aquesta assignatura s'obté com la mitjana ponderada de les notes de:
- PAC1 (20%)
- PAC2 (20%)
- Examen (60%)
Les proves davaluació contínua PAC1 i PAC2 consisteixen en un lliurament de problemes/exercicis de pràctiques/treballs amb R, que es concretaran al llarg del curs.
Només es tindran en compte en el càlcul de la mitjana ponderada aquelles notes que siguin com a mínim 3.5 sobre 10 (les que no ho compleixin ponderaran 0).
Per a superar l'assignatura cal que aquesta mitjana sigui almenys 5.0 sobre 10.
Si no es supera l'assignatura en primera convocatòria, l'alumne es pot presentar a recuperació. L'examen de recuperació representa el 100% de la nota final per a aquells alumnes que es presenten a la recuperació, que només poden ser alumnes que no han superat l'assignatura a la primera convocatòria (l'examen de recuperació no serveix per a millorar la nota d'alumnes que ja han aprovat).
Es considera avaluable l'alumne que hagi presentat els lliuraments PAC1 o PAC2, o s'hagi presentat a l'examen o l'examen de recuperació. En cas contrari constarà a l'acta com a No Avaluable.
Per a l'eventual assignació de Matrícules d'Honor no es tindran en compte les notes de la segona convocatòria.
Activitats d'avaluació
Títol |
Pes |
Hores |
ECTS |
Resultats d'aprenentatge |
Examen |
60% |
3
|
0,12 |
1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15
|
PAC1 |
20% |
6
|
0,24 |
1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15
|
PAC2 |
20% |
9
|
0,36 |
1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15
|
Bibliografia
- Norman Fenton and Martin Neil, “Risk Assessment and Decision Analysis with Bayesian Networks”, CRC Press. A Chapman & Hall Book, 2013. (Disponible en línia)
- Radhakrishnan Nagarajan, Marco Scutari and Sophie Lèbre, “Bayesian Networks in R with applications in Systems Biology”, Springer, 2013. (Disponible en línia)
- Oliver Porret, Patrick Naïm and Bruce Marcot, "Bayesian Networks. A practical guide to applications". Series: Statistics in Practice. Wiley, 2008. (Disponible en línia)
- Richard E. Neapolitan, "Learning Bayesian Networks", Prentice Hall Series in Artificial Intelligence, 2004.
Programari
Es farà servir el programari R amb algunes llibreries que s'indicaran oportunament al llarg del curs. Preferiblement en l'entorn RStudio.