2020/2021
Aprenentatge Automàtic 1
Codi: 104870
Crèdits: 6
Titulació |
Tipus |
Curs |
Semestre |
2503852 Estadística Aplicada |
OB |
3 |
1 |
La metodologia docent i l'avaluació proposades a la guia poden experimentar alguna modificació en funció de les restriccions a la presencialitat que imposin les autoritats sanitàries.
Utilització d'idiomes a l'assignatura
- Llengua vehicular majoritària:
- català (cat)
- Grup íntegre en anglès:
- No
- Grup íntegre en català:
- Sí
- Grup íntegre en espanyol:
- No
Equip docent
- Joan Valls Marsal
Prerequisits
Aquesta assignatura suposa que l'alumne ha assolit els coneixements que s'imparteixen en diferents assignatures sobre els següents temes:
- Càlcul en diverses variables.
- Probabilitat.
- Models lineals.
- Programació en R.
Objectius
Aquesta assignatura pretén familiaritzar l'alumne amb diferents mètodes d'aprenentatge automàtic aplicant el punt de vista utilitzat quan es disposa de grans quantitats de dades.
Competències
- Analitzar dades mitjançant l’aplicació de mètodes i tècniques estadístiques, treballant amb dades de diverses tipologies.
- Aplicar l’esperit crític i el rigor per validar o refutar arguments tant propis com d’altres persones.
- Avaluar de manera crítica i amb criteris de qualitat el treball realitzat.
- Que els estudiants hagin desenvolupat aquelles habilitats d'aprenentatge necessàries per emprendre estudis posteriors amb un alt grau d'autonomia.
- Que els estudiants puguin transmetre informació, idees, problemes i solucions a un públic tant especialitzat com no especialitzat.
- Que els estudiants sàpiguen aplicar els coneixements propis a la seva feina o vocació d'una manera professional i tinguin les competències que se solen demostrar per mitjà de l'elaboració i la defensa d'arguments i la resolució de problemes dins de la seva àrea d'estudi.
- Que els estudiants tinguin la capacitat de reunir i interpretar dades rellevants (normalment dins de la seva àrea d'estudi) per emetre judicis que incloguin una reflexió sobre temes destacats d'índole social, científica o ètica.
- Resumir i descobrir patrons de comportament en l’exploració de les dades.
- Seleccionar els models o tècniques estadístiques per aplicar-los en estudis i problemes reals, així com conèixer-ne les eines de validació.
- Seleccionar i aplicar procediments més apropiats per a la modelització estadística i l’anàlisi de dades complexes.
- Seleccionar les fonts i tècniques d’adquisició i gestió de dades adequades per a fer-ne un tractament estadístic.
- Treballar cooperativament en un context multidisciplinari assumint i respectant el rol dels diferents membres de l’equip.
- Utilitzar correctament un ampli espectre del programari i llenguatges de programació estadístiques, escollint el més apropiat per a cada anàlisi i ser capaç d’adaptar-lo a noves necessitats.
- Utilitzar eficaçment la bibliografia i els recursos electrònics per obtenir informació.
Resultats d'aprenentatge
- Analitzar dades mitjançant la metodologia d'aprenentatge automàtic.
- Aplicar l'esperit crític i el rigor per validar o refutar arguments, tant propis com d'altres.
- Avaluar de manera crítica i amb criteris de qualitat la feina feta.
- Caracteritzar grups homogenis d'individus mitjançant una anàlisi multivariant.
- Descobrir comportaments i tipologies d'individus mitjançant tècniques de mineria de dades.
- Descriure els avantatges i els inconvenients dels mètodes algorítmics vers els mètodes convencionals de la inferència estadística.
- Fer servir gràfics de resum de dades multivariades o més complexes.
- Identificar les suposicions estadístiques associades a cada procediment avançat.
- Identificar, fer servir i interpretar els criteris per avaluar el grau de compliment dels requisits necessaris per aplicar cada procediment avançat.
- Implementar programes en llenguatges adequats per a la mineria de dades.
- Obtenir i gestionar bases de dades complexes per analitzar-les posteriorment.
- Projectar un estudi partint de metodologies multivariants o de mineria de dades per resoldre un problema contextualitzat en la realitat experimental.
- Que els estudiants hagin desenvolupat aquelles habilitats d'aprenentatge necessàries per emprendre estudis posteriors amb un alt grau d'autonomia.
- Que els estudiants puguin transmetre informació, idees, problemes i solucions a un públic tant especialitzat com no especialitzat.
- Que els estudiants sàpiguen aplicar els coneixements propis a la seva feina o vocació d'una manera professional i tinguin les competències que se solen demostrar per mitjà de l'elaboració i la defensa d'arguments i la resolució de problemes dins de la seva àrea d'estudi.
- Que els estudiants tinguin la capacitat de reunir i interpretar dades rellevants (normalment dins de la seva àrea d'estudi) per emetre judicis que incloguin una reflexió sobre temes destacats d'índole social, científica o ètica.
- Treballar cooperativament en un context multidisciplinari assumint i respectant el rol dels diferents membres de l'equip.
- Utilitzar eficaçment bibliografia i recursos electrònics per obtenir informació.
- Utilitzar mètodes de mineria de dades per validar i comparar possibles models.
Continguts
Aquests són els continguts de l'assignatura*
- Introducció a Tidyverse
- Introducció a l'aprenentatge automàtic
- Regressió lineal i logística
- Passos previs a la creació d'un model predictiu i mesures de validació
- Mètodes d'aprenentatge automàtic
- Anàlisi mitjançant arbres de classificació
- K-veïns més propers
- Random Forest
- Boosting
- Mètodes d'aprenentatge per a dades n << p
- Mètodes de penalització (shrinkage)
- Mètodes de regularització
- La llibreria 'caret'
- Mètodes d'aprenentatge per a dades grans (big data)
- XGBoost
- Lasso
- La llibreria 'H20'
*Llevat que les restriccions imposades per les autoritats sanitàries obliguin a una priorització o reducció d’aquests continguts.
Metodologia
L'assignatura té programades, a la setmana, dues hores de teoria i dues hores de pràctiques.
- Classe de teoria: es defineixen i s'expliquen els diferents mètodes amb les seves característiques particulars i es mostren exemples concrets.
- Classe de pràctiques: es treballen els mètodes explicats a classe de teoria amb diversos conjunts de dades utilitzant el llenguatge de programació R.
Es considera que, per a cada hora de teoria i pràctiques, l'alumne haurà de dedicar una hora addicional a la preparació i/o finalització de la sessió. Adicionalment realitzará preguntes d'autoevaluació al Moodle per consolidar els coneixements adquirits a clase.
NOTA: La metodologia docent proposada pot experimentar alguna modificació en funció de les restriccions a la presencialitat que imposin les autoritats sanitàries
Avaluació
L'avaluació de l'assignatura es durà a terme amb un examen (final), treballs setmanals i preguntes d'autoevaluació. La nota final es calcularà amb la fórmula:
NF = 0,3 * NE + 0,5 * NP + 0,2 * NA
on NP és la nota promig dels treball semanals, NA es la nota promig de les preguntes d'autoevaluació i NE es la nota del examen que com a mínim ha de ser un 5.
A final de curs hi haurà una prova de recuperació per a aquells alumnes tals que NE és menor que 5 i NF menor que 5. En aquest cas, la nota final es calcularà amb la fórmula:
NF = 0,5 * NR + 0,5 * NP
on NR és la nota de l'examen de recuperació.
NOTA: L’avaluació proposada pot experimentar alguna modificació en funció de les restriccions a la presencialitat que imposin les autoritats sanitàries
Activitats d'avaluació
Títol |
Pes |
Hores |
ECTS |
Resultats d'aprenentatge |
Autoevaluació |
20% |
0
|
0 |
1, 3, 5, 8, 9, 13, 15, 19
|
Examen final |
30% |
0
|
0 |
2, 4, 6, 7, 8, 9, 13, 15, 18
|
Pràctiques + autoevaluació |
50% |
0
|
0 |
1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19
|
Bibliografia
Bibliografia bàsica:
- An Introduction to Statistical Learning with Applications in R - Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani
Bibliografia complementària:
- The Elements of Statistical Learning: Data Mining, Inference, and Prediction - Trevor Hastie, Robert Tibshirani and Jerome Friedman
- Data Science from Scratch - Joel Grus
- Computer Age Statistical Inference: Algorithms, Evidence and Data Science - Trevor Hastie and Bradley Efron